Elaborazione ed Analisi di Immagini Telerilevate

Transcript

Ministero dell’Istruzione, dell’Università e della Ricerca
PROGRAMMI DI RICERCA SCIENTIFICA
DI RILEVANTE INTERESSE NAZIONALE
Elaborazione ed Analisi di Immagini
Telerilevate Multitemporali e Ipertemporali per
il Monitoraggio Ambientale
RAPPORTO TECNICO 4
Dipartimento di Informatica e Telecomunicazione
Università di Trento
Dipartimento di Elettronica
e Telecomunicazioni
Università di Firenze
Dipartimento di Ingegneria Elettronica e
delle Telecomunicazioni
Università di Napoli
Dipartimento di Ingegneria Biofisica
ed Elettronica
Università di Genova
Dipartimento di Ingegneria
dell’Informazione
Università di Pisa
Indice
PREMESSA........................................................................................................................................4
1. OBIETTIVI FASE 4 ......................................................................................................................5
2. WP1 – COORDINAMENTO........................................................................................................6
2.1. UR di Trento – Coordinamento ............................................................................................6
2.2. Pacchetto software integrato .................................................................................................6
2.3. Divulgazione dei risultati del progetto .................................................................................7
2.3.1. Pubblicazioni connesse al progetto...................................................................................7
2.3.2. Altre modalità di divulgazione .......................................................................................13
3. WP2 – ANALISI DI IMMAGINI MULTITEMPORALI........................................................14
3.1. Sintesi delle tecniche sviluppate e dei risultati ottenuti ....................................................14
3.1.1. Classificazione multitemporale parzialmente supervisionata.........................................14
3.1.2. Classificazione parzialmente supervisionata di coppie di immagini..............................15
3.1.3. Classificazione contestuale parzialmente supervisionata per sequenze di immagini.....17
3.1.4. Segmentazione di imamgni multitemporali (propedeutica alla compressione)..............19
3.1.5. Rivelazione non-supervisionata dei cambiamenti ..........................................................20
3.1.6. Rivelazione dei cambiamenti e della loro tipologia mediante tecniche parzialmente
supervisionate..................................................................................................................22
3.2. Sviluppi futuri.......................................................................................................................22
3.2.1. Classificazione multitemporale di immagini e rivelazione dei cambiamenti.................22
3.2.2. Segmentazione di imamgni multitemporali (propedeutica alla compressione)..............23
3.2.3. Tecniche di rivelazione dei cambaimenti non supervisionate e parzialmente
supervisionate..................................................................................................................24
3.3. Bibliografia ...........................................................................................................................25
4. WP3 – ANALISI DI IMMAGINI IPERTEMPORALI............................................................26
4.1.1. Tecniche per la rappresentazione efficiente dei dati e la rivelazione di anomalie .........28
4.2. Sviluppi futuri.......................................................................................................................37
4.3. Bibliografia ...........................................................................................................................38
5. WP4 – COMPRESSIONE DI IMMAGINI MULTI/IPERTEMPORALI .............................40
MIUR – Multitemporale, Rapporto Tecnico 4
2
5.2. Sviluppi futuri.......................................................................................................................41
3
Premessa
Il presente rapporto tecnico descrive l’attività della quarta fase (mesi IXX-XXIV) del
programma di ricerca scientifica di rilevante interesse nazionale “Elaborazione ed analisi di
immagini telerilevate multitemporali e ipertemporali per il monitoraggio ambientale”, finanziato dal
MIUR - Ministero dell’Istruzione, dell’Università e della Ricerca (COFIN Bando 2002, protocollo:
2002098554).
La fase in esame è stata dedicata alla conclusione delle attività di ricerca, con l’esecuzione
degli ultimi esperimenti circa le metodologie sviluppate di fusione-dati, ed alla produzione di un
pacchetto software integrato che raccoglie tutti i moduli software sviluppati dalle UR coinvolte nel
progetto.
È stata conservata l’organizzazione dell’attività di ricerca in quattro Work Package (WP1 ÷
WP4), stabilita durante la prima fase mediante la definizione dei seguenti WP:
•
“WP1 – Coordinamento” (responsabile: UR di Trento), vi partecipano tutte le UR
coinvolte nel progetto; Il WP1 è stato dedicato al coordinamento dell’intero programma
di ricerca. Ciascuno delgli altri WP è centrato su uno specifico aspetto dell’analisi di dati
telerilevati multitemporali e ipertemporali e coinvolge due o più UR partecipanti al
progetto.
•
“WP2 – Analisi di immagini multitemporali” (responsabile: UR di Genova), cui
partecipano le UR di Genova, Trento, Firene e Napoli;
•
“WP3 – Analisi di immagini Ipertemporali” (responsabile: UR di Pisa), cui partecipano le
UR di Pisa e Firenze;
•
“WP4 – Compressione di immagini multitemporali e ipertemporali” (responsabile: UR di
Napoli), cui partecipano le UR di Napoli e Firenze;
Il presente Rapporto Tecnico è articolato in quattro capitoli, ciascuno dei quali si riferisce ad
uno dei sopracitati WP: i capitoli 3-5 espongono le eventuali modifiche metodologiche e/o
implementative apportate durante la quarta fase alle tecniche proposte, descrivono l’eventuale
sperimentazione eseguita in tale periodo e sintetizzano brevemente l’attività di ricerca condotta
nell’ambito dell’intero programma di ricerca, riassumendo i risultati più significativi e sottolineando
i potenziali sviluppi futuri. Il capitolo 1 descrive l’attività di coordinamento condotta durante la
quarta fase, focalizzandosi sulla produzione da parte delle UR coinvolte nel progetto del pacchetto
software integrato.
4
1. OBIETTIVI FASE 4
Vengono di seguito riportati gli obiettivi della quarta fase definiti nella proposta del progetto.
Tali obiettivi sono stati conseguiti, tramite le attività svolte ed i risultati ottenuti, come descritto nei
prossimi capitoli.
La Fase 4 è dedicata al completamento della sperimentazione per la validazione degli
algoritmi ed all’integrazione del software delle singole tecniche sviluppate in un unico package.
In questa fase le tecniche dovrebbero essere fondamentalmente assestate; potrebbero essere
comunque necessarie modifiche minori la cui necessità potrebbe emergere dal completamento della
sperimentazione prevista per questa fase, e relativa in particolare all'uso cooperativo e combinato
di diverse tecniche. La sperimentazione verrà completata in questa fase e consentirà di assestare la
documentazione relativa alle prestazioni e all' applicabilità dei moduli di fusione dati sviluppati.
Attività fondamentale di questa fase sarà l' integrazione dei moduli software sviluppati. A tal
fine si userà la piattaforma fornita dall'UR di Trento alle altre UR durante la riunione di
coordinamento di fine della Fase 3. Le varie UR potranno così collaborare inserendo i moduli da
ciascuna sviluppati nella propria copia della piattaforma. L’UR di Trento, ricevuti i moduli così
predisposti, potrà integrare il package completo e distribuirlo alle UR per la sperimentazione. Si
valuterà la necessità di un incontro ad hoc nel corso della Fase 4 (ad es. nel mese XXI).
Ciascuna UR potrà infine sperimentare l'uso del package sviluppato e valutare le possibilità
da esso offerte. In particolare contribuirà alla documentazione relativa all' uso, nell' ambito del
pacchetto integrato, dei moduli da essa sviluppati.
Nell’ambito della Fase 4 (ed eventualmente anche precedentemente) si provvederà alla
divulgazione dei risultati della ricerca nell’ambito di uno o più dei seguenti eventi: sessioni di
presentazione in occasione delle riunioni organizzate dal Gruppo TTI, Telecomunicazioni e Teoria
dell' Informazione; workshop specifico sui temi della ricerca; sessione in occasione di un congresso
nazionale o internazionale.
5
2. WP1 – COORDINAMENTO
Unità di Ricerca coinvolte nello sviluppo del WP1 : tutte
Responsabile WP1: L. Bruzzone – Responsabile UR Trento
Responsabile UR Firenze: L. Alparone
Responsabile UR Pisa: M. Diani
Responsabile UR Napoli: G. Poggi
Responsabile UR Genova: S. Serpico
2.1. UR di Trento – Coordinamento
Nell’ambito della fase 4, il coordinamento ha riguardato, in particolare, l’interfaccia con il
Ministero, il monitoraggio dello stato di avanzamento delle attività, la produzione, in collaborazione
coi partner, del presente report e del pacchetto software integrato, e la sperimentazione del
pacchetto stesso. Si è inoltre completata la stesura di un Allegato Tecnico che documenta
funzionamento e modalità d’uso del pacchetto software e dei singoli moduli in esso integrati.
Durante tale fase è stata organizzata una riunione collegiale, tenutasi il 14 ottobre 2004 a
Trento, nell’ambito della quale è stata condotta un’analisi conclusiva dello stato di avanzamento
delle attività di ricerca connesse al progetto, è stato fatto il punto della situazione circa le
collaborazioni fra le UR coinvolte, il pacchetto software integrato e le modalità di divulgazione del
pacchetto stesso e dei risultati scientifici ottenuti. Le attività relative alla fase 4 si sono concluse con
una riunione telematica durante la quale sono state concordate le modalità di divulgazione del
pacchetto software integrato e della documentazione prodotta nel corso del progetto.
Nell'ambito di questa fase il coordinatore nazionale del progetto ha inoltre presentato le
metodologie sviluppate nell'ambito del presente programma con i relativi risultati nel corso della
riunione annuale 2004 del Gruppo Nazionale “Telecomunicazioni e Teoria dell'Informazione”
(GTTI) (L’Aquila, 14-16 giugno 2004).
2.2. Pacchetto software integrato
Attività principale della quarta fase di progetto è stata la produzione di un pacchetto software
integrato che raccoglie tutti i moduli sviluppati nell’ambito del programma di ricerca, con
l’obiettivo di costituire un toolbox di fusione di dati multitemporali, orientato ad applicazioni di
monitoraggio ambientale mediante dati telerilevati, e reso disponibile a fini dimostrativi e didattici.
6
Sviluppata durante la fase precedente l’interfaccia Matlab del pacchetto, si sono realizzate nella
presente quarta fase l’integrazione dei moduli software prodotti dalle singole UR e le operazioni di
debugging e sperimentazione del pacchetto stesso. All’interno del pacchetto stesso è stata resa
disponibile
una
documentazione
“veloce”,
richiamabile
mediante
l’istruzione
“help
nome_funzione”, in analogia allo stile dell’help in-linea di Matlab. Per fornire inoltre una
descrizione estesa del funzionamento e delle modalità d’uso del pacchetto stesso è stato prodotto un
Allegato Tecnico, cui si rimanda per tutte le specifiche di utilizzo del pacchetto. Descrizioni sul
piano teorico e metodologico dei moduli stessi sono invece presentate nei Rapporti Tecnici
precedenti.
Durante la quarta fase è stata poi effettuata un’approfondita sperimentazione del pacchetto sui
data set descritti nel Rapporto Tecnico 1, al fine di verificare corretto funzionamento e portabilità
dell’interfaccia e dei singoli moduli. Quale risultato finale, il pacchetto software viene reso
disponibile dal sito web http://dit.unitn.it/~rslab/COFIN2002.
Durante la quarta fase in esame, le UR coinvolte nel progetto, instaurando un proficuo
scambio reciproco di competenze software, hanno evitato eventuali problemi di portabilità,
stabilendo di generare, a partire dagli script Matlab (file “.m”) non programmi eseguibili (file
“.exe”) bensì file in formato “p-code” (file “.p”), che costituiscono il risultato dell’operazione di
parsing applicata agli script stessi. I p-file risultanti vengono, infatti, richiamati esattamente come i
corrispondenti script senza bisogno di librerie software di supporto, e risultano pertanto molto
portabili.
È stato infine verificato il corretto funzionamento dell’interfaccia e di tutti i moduli
componenti il pacchetto integrato, mediante sperimentazione sotto piattaforma Matlab 6.5. Tale
corretto funzionamento non è garantito, a priori, in ambiente Matlab precedente alla release 6.5.
2.3. Divulgazione dei risultati del progetto
2.3.1. Pubblicazioni connesse al progetto
L’attività scientifica connessa al progetto ha dato luogo alle seguenti pubblicazioni dei
membri delle UR partecipanti:
Pubblicazioni su rivista internazionale:
[R1]
B. Aiazzi, L. Alparone, S. Baronti, A. Garzelli, “Coherence estimation from multilook
incoherent SAR imagery, IEEE Transactions on Geoscience and Remote Sensing, Vol. 41,
No. 11, pp. 2531-2539, Novembre 2003.
7
[R2]
L. Alparone, S. Baronti, A. Garzelli, F. Nencini, “A global quality measurement of Pansharpened multispectral images”, IEEE Transactions on Geoscience and Remote Sensing
Letters, Vol. 1, No. 4, pp. 313-317, Ottobre 2004.
[R3]
L. Alparone, S. Baronti, A. Garzelli, F. Nencini, “Landsat ETM+ and SAR image fusion
based on generalized intensity modulation”, IEEE Transactions on Geoscience and Remote
Sensing, Vol. 42, No. 12, pp. 2832-2839, Dicembre 2004.
[R4]
B. Aiazzi, L. Alparone, A. Barducci, S. Baronti, P. Marcoionni, I. Pippi, M. Selva, “Noise
modelling and estimation of hyperspectral data from airborne imaging spectrometers,”
Annals of Geophysics, Special Issue on Airborne Remote Sensing for Geophysical and
Environmental Applications, 2005 (in stampa).
[R5]
F. Melgani, S. B. Serpico, “A Markov Random Field Approach to Spatio-Temporal
Contextual Classification,” IEEE Transactions on Geoscience and Remote Sensing, Vol. 41,
pp. 2478-2487, 2003.
[R6]
C.D'Elia, G.Poggi, G.Scarpa, “A tree-structured Markov random field model for bayesian
image segmentation”, IEEE Transactions on Image Processing, Vol.12, pp.1259-1273,
Ottobre 2003.
[R7]
G.Poggi, G.Scarpa, J.Zerubia, “Supervised segmentation of remote-sensing images based on
a tree-structured MRF model”, IEEE Transactions on Geoscience and Remote Sensing (in
stampa).
[R8]
M. Diani, N. Acito, G. Corsini, “Airborne threat detection in navy IRST systems”, IEE
Proceedings Vision Image and Signal Processing a Ottobre 2003 (in stampa).
[R9]
L. Bruzzone, R. Cossu, “An Adaptive Approach for Reducing Registration Noise Effects in
Unsupervised Change Detection”, IEEE Transactions on Geoscience and Remote Sensing,
Vol. 41, pp. 2455-2465, 2003.
[R10] L. Bruzzone, R. Cossu, G. Vernazza, “Detection of land-cover transitions by combining
multidate classifiers”, Pattern Recognition Letters, Vol. 25, No. 13, 1 Ottobre 2004, pp.
1491-1500.
[R11] L. Bruzzone, M. Marconcini, U. Wegmuller, A. Wiesmann, “An advanced system for the
automatic classification of multitemporal SAR images”, IEEE Transactions on Geoscience
and Remote Sensing, Vol. 42, No. 6, Giugno 2004, pp. 1321-1334.
[R12] Y. Bazi, L. Bruzzone, F. Melgani, “An unsupervised approach based on the generalized
Gaussian model to automatic change detection in multitemporal SAR images”, IEEE
Transactions on Geoscience and Remote Sensing, Vol. 43, 2005 (in stampa).
8
[R13] M. Chi, L. Bruzzone, “A Semilabeled-Sample-Driven Bagging Technique for Ill-Posed
Classification Problems”, IEEE Transactions on Geoscience and Remote Sensing Letters.
(in stampa).
Capitoli di libro
[L1]
B. Aiazzi, L. Alparone, S. Baronti, C. Lastri, "Near-lossless compression of remote-sensing
data", in Frontiers of Remote Sensing Information Processing, editor: C. H. Chen,
Singapore: World Scientific Publishing, pp. 503-532, Luglio 2003.
[L2]
G. Moser, F. Melgani, S. B. Serpico, "Advances in unsupervised change detection", in
Frontiers of Remote Sensing Information Processing, editor: C. H. Chen, Singapore: World
Scientific Publishing, pp. 405-426, Luglio 2003.
[L3]
L. Bruzzone and R. Cossu, “Advanced Classification Techniques: Partially Supervised
Approaches”, in Frontiers of Remote Sensing Information Processing, editor: C. H. Chen,
Singapore: World Scientific Publishing, Chapter 12, pp. 285-314, 2003.
Pubblicazioni su conferenza
[C1]
L. Alparone, M. Bianchini, B. Aiazzi, S. Baronti, M. Selva, “Change detection in repeatpass multilook SAR imagery via coherence analysis”, Atti del Second IEEE International
Workshop on the Analysis of Multi-temporal Remote Sensing Images, Ispra, Italia, 16-18
Luglio, 2003, World Scientific Publishing, Singapore, 2004, pp. 145-153.
[C2]
B. Aiazzi, L. Alparone, S. Baronti, A. Garzelli, “Coherence estimation from multilook
detected SAR images”, invited paper, Atti dell’IEEE 2003 Int. Geoscience and Remote
Sensing Symposium (IGARSS 2003), Tolosa, Francia, 21-25 Luglio, 2003, pp. 200-202.
[C3]
L. Alparone, A. Garzelli, F. Nencini, B. Aiazzi, S. Baronti, “Interband detail modeling for
multiresolution fusion of very high resolution multispectral images”, Atti della SPIE
Conference on Image and Signal Processing for Remote Sensing IX, Barcellona,, Spagna, 812 Settembre 2003, L. Bruzzone (Ed.), Vol. 5238, pp. 44-49, 2004.
[C4]
B. Aiazzi, L. Alparone, S. Baronti, M. Bianchini, A. Garzelli, M. Selva, “Information
mining via coherence estimation from multi-look incoherent SAR imagery,” Proceeding 4th
ESA-EUSC Conference on Image Information Mining, Madrid, Spagna, 17–19 Marzo 2004,
CD-ROM
Proceedings,
disponibili
su
http://earth.esa.int/rtd/Events/ESA-EUSC-
2004/index.html.
[C5]
L. Alparone, L. Facheris, S. Baronti, A. Garzelli, F. Nencini, “Fusion of multispectral and
SAR images by intensity modulation,” Atti della 7th International Conference on
9
Information Fusion, Stoccolma, Svezia, 28 Giugno–1 Luglio 2004, CD-ROM Proceedings,
pp. 637-643.
[C6]
L. Alparone, G. Corsini, M. Diani, “Noise modeling and estimation in image sequences
from thermal infrared cameras”, Atti della SPIE Conference on Image and Signal
Processing for Remote Sensing X, Maspalomas, Gran Canaria, Spagna, 13-15 Settembre
2004 (in stampa).
[C7]
B. Aiazzi, L. Alparone, S. Baronti, M. Bianchini, A. Garzelli, M. Selva, “Quicklook
coherence estimation from multilook SAR imagery,” SPIE European Remote Sensing
Symposium, Maspalomas, Gran Canaria, Spain, 13–16 September 2004 in SAR Image
Analysis, Modeling, and Techniques VII, F. Posa (ed.), Proc. SPIE Vol. 5574-B, pp. 428–
435, 2004.
[C8]
M. De Martino, G. Macchiavello, G. Moser, S. B. Serpico, "Partially Supervised Contextual
Classification of Multitemporal Remotely Sensed Images", Atti dell’IEEE 2003 Int.
Geoscience and Remote Sensing Symposium (IGARSS 2003), Tolosa, Francia, 21-25 Luglio,
2003, Vol. II, pp. 1377-1379.
[C9]
S. B. Serpico, M. Datcu, G. Moser, S. Mansi, P. Pecciarini, "Hybrid supervised /
unsupervised multisensor fusion of remote sensing images based on hierarchical clustering",
Tyrrhenian International Workshop on Remote Sensing, 15-18 Settembre 2003, Isola d’Elba,
Italia, pp.17-30.
[C10] G. Moser, S. B. Serpico, M. De Martino, D. Coppolino, “Automatic partially supervised
classification of multitemporal remotely sensed images”, Atti della SPIE Conference on
Image and Signal Processing for Remote Sensing X, Maspalomas, Gran Canaria, Spagna,
13-15 Settembre 2004 (in stampa).
[C11] C. D'Elia, G. Poggi, G. Scarpa: “Improved tree-structured segmentation of remote sensing
images”, Atti dell’IEEE 2003 Int. Geoscience and Remote Sensing Symposium (IGARSS
2003), Tolosa, Francia, 21-25 Luglio, 2003, Vol. 3, pp. 1805-1807.
[C12] C. D'Elia, G. Poggi, G. Scarpa: “Sequential Bayesian segmentation of remote sensing
images”, Atti della SPIE Conference on Image Processing, Barcellona, Spagna, 8-12
Settembre 2003, Vol. 3, pp. 985-988,.
[C13] M. Cagnazzo, G. Poggi, G. Scarpa, L. Verdoliva: “Compression of multitemporal remote
sensing images through Bayesian segmentation”, Atti dell’IEEE 2004 Int. Geoscience and
Remote Sensing Symposium (IGARSS 2004), Anchorage, Alaska, USA, 20-24 Settembre,
2004, vol. 1, pp. 281-284.
10
[C14] L. Cicala, G. Poggi, G. Scarpa: “Supervised segmentation of remote-sensing multitemporal
images based on the tree-structured Markov random field model”, Atti dell’IEEE 2004 Int.
Geoscience and Remote Sensing Symposium (IGARSS 2004), Anchorage, Alaska, USA, 2024 Settembre, 2004, vol. 3, pp. 1569-1572.
[C15] M. Diani, N. Acito, G. Corsini, “Dim target detection in IR maritime surveillance systems”,
Atti dell’IEEE 2003 Int. Geoscience and Remote Sensing Symposium (IGARSS 2003),
Tolosa, Francia, 21-25 Luglio, 2003.
[C16] M. Diani, N. Acito, G. Corsini, “A new background subspace selection criterion for clutter
cancellation in infrared naval surveillance systems,” Atti del 9th International Symposium
on Remote Sensing, Crete, Greece, 23-27 Settembre 2002.
[C17] L. Bruzzone, M. Marconcini, U. Wegmuller, A. Wiesmann, “An advanced system for
automatic classification of multitemporal SAR images”, Atti del Second IEEE International
Workshop on the Analysis of Multi-temporal Remote Sensing Images, Ispra, Italia, 16-18
Luglio, 2003, World Scientific Publishing, Singapore, 2004, pp. 175-185.
[C18] L. Bruzzone, F. Melgani, “A data fusion approach to unsupervised change detection”, Atti
dell’IEEE 2003 Int. Geoscience and Remote Sensing Symposium (IGARSS 2003), Tolosa,
Francia, 21-25 Luglio, 2003, Vol. II, pp. 1374-1376.
[C19] Y. Bazi, L. Bruzzone, F. Melgani, “An Approach to Unsupervised Change Detection in
Multitemporal SAR Images Based on the Generalized Gaussian Distribution”, Atti
dell’IEEE 2004 Int. Geoscience and Remote Sensing Symposium (IGARSS 2004),
Anchorage, Alaska, USA, 20-24 Settembre, 2004, Vol. II, pp. 1402-1405.
[C20] Y. Bazi, L. Bruzzone, F. Melgani, "Change Detection in Multitemporal SAR Images Based
on Generalized Gaussian Distribution and EM Algorithm", Atti della SPIE Conference on
Image and Signal Processing for Remote Sensing X, Maspalomas, Gran Canaria, Spagna,
13-15 Settembre 2004 (in stampa).
Rapporti interni
[T1] Elaborazione ed analisi di immagini telerilevate multitemporali ed ipertemporali per il
monitoraggio ambientale, Rapporti tecnici I e II.
[T2] N. Acito, G. Corsini, M. Diani, “Studio di tecniche per la rivelazione di oggetti in sequenze di
immagini
IR,”
Rapporto
tecnico
IPERT/12/2003,
Dipartimento
di
Ingegneria
dell’Informazione, PISA, Dicembre 2003.
11
[T3] N. Acito, G. Corsini, M. Diani, G. Pennucci, “Elaborazione ed analisi di sequenze di
immagini telerilevate per la rappresentazione efficiente dei dati,” Numero Protocollo 807,
Dipartimento di Ingegneria dell’Informazione, PISA, Dicembre 2004.
[T4] N. Acito, G. Corsini, M. Diani, G. Pennucci, “Un algoritmo per l’implementazione
sequenziale della trasformata discreta di Karhunen-Loeve,” Numero Protocollo 806,
[T5] N. Acito, G. Corsini, M. Diani, G. Pennucci, “Studio ed implementazione di una procedura
per la rivelazione di anomalie in sequenze di immagini telerilevate,” Numero Protocollo 28,
[T6] N. Acito, M. Diani, G. Pennucci, “Approccio MHT (Multistage Hypothesis Testing) alla
rivelazione di anomalie in sequenze ipertemporali di immagini,” Numero di Protocollo
1797/AR, Dipartimento di Ingegneria dell’Informazione, PISA, Dicembre 2004.
[T7] Elaborazione ed analisi di immagini telerilevate multitemporali ed ipertemporali per il
monitoraggio ambientale, Rapporti tecnici I-IV.
Pubblicazioni sottomesse
[S1] B. Aiazzi, S. Baronti, M. Bianchini, A. Mori, L. Alparone, “Filtering of interferometric SAR
phase images as a fuzzy matching-pursuit blind estimation,” sottomesso a EURASIP Journal
of Applied Signal Processing, Special Issue on Advances in Interferometric Synthetic
Aperture Radar Processing, 2005.
[S2] M. Datcu, G. Moser, S. B. Serpico, "Hybrid supervised/unsupervised multisensor fusion of
remote sensing images based on hierarchical clustering", sottomesso a IEEE Transactions on
Geoscience and Remote Sensing.
[S3] N.Acito, G. Corsini, M. Diani, G. Pennucci, “Comparative Analysis of Clutter Removal
techniques over experimental IR images,” Optical Engineering.
[S4] N.Acito, G. Corsini, M. Diani, G. Pennucci, “Experimental Performance Analysis of clutter
removal techniques in infrared images,” sottomesso a ICIP 2005.
[S5] Y. Bazi, L. Bruzzone, F. Melgani, “Image Thresholding Based on the EM Algorithm and the
Generalized Gaussian Distribution”, sottomesso a IEEE Transactions on Image Processing.
[S6] F. Bovolo, L. Bruzzone, “A Detail-Preserving Scale-Driven Approach to Unsupervised
Change Detection in Multitemporal SAR Images”, sottomesso a IEEE Transactions on
Geoscience and Remote Sensing.
12
2.3.2. Altre modalità di divulgazione
Nell'ambito della riunione annuale 2004 del Gruppo Nazionale “Telecomunicazioni e Teoria
dell'Informazione” (GTTI) (L’Aquila, 14-16 giugno 2004) sono state presentate le metodologie
sviluppate nell'ambito del presente programma con i relativi risultati. Annoveriamo inoltre fra gli
strumenti di divulgazione dell’attività svolta le pubblicazioni su rivista o per conferenza (che
elenchiamo in § 1.3.1) ed il sito web http://dit.unitn.it/~rslab/COFIN2002 (non previsto nella
proposta di progetto e tutt’ora in fase di completamento) presso il quale è possibile scaricare i
Rapporti Tecnici ed il pacchetto software con la relativa documentazione (Allegato Tecnico).
13
3. WP2 – ANALISI DI IMMAGINI
MULTITEMPORALI
Unità di Ricerca coinvolte nello sviluppo del WP2: Genova, Trento, Firenze, Napoli
Responsabile WP2: S. Serpico – Responsabile UR Genova
Responsabile UR Trento: L. Bruzzone
Responsabile UR Napoli: G. Poggi
Nel seguito sono riportate le attività svolte durante la quarta fase del progetto dalle UR che
partecipano al WP2.
3.1. Sintesi delle tecniche sviluppate e dei risultati ottenuti
3.1.1. Classificazione multitemporale parzialmente supervisionata
L'attività dell'UR di Genova nell'ambito del progetto ha proseguito l'analisi delle tematiche
relative all'analisi parzialmente supervisionata di dati telerilevati multitemporali, già iniziata nel
contesto del progetto "Fusione di dati telerilevati per il monitoraggio ambientale" (Programma di
ricerca scientifica di rilevante interesse nazionale: PRIN-COFIN 2000, Dicembre 2000/Dicembre
2002). Tale tematica di ricerca fa riferimento all'ambito operativo in cui non è disponibile
informazione di realtà al suolo per tutte le date di acquisizione delle immagini componenti la
sequenza in esame. In particolare, tale informazione di training si assume disponibile solo per un
sotto-insieme delle date stesse. Tale approccio risulta di primario interesse nell'ottica dello sviluppo
di sistemi integrati di monitoraggio ambientale mediante satelliti (o costellazioni di satelliti) che
garantiscono tempi di rivisita molto brevi (es.: 12-24 ore), il che rende non realistico l'uso di
tecniche di analisi completamente supervisionate (realtà al suolo disponibile a tutte le date), pur
richiedendo comunque accuratezze di classificazione difficilmente ottenibili con tecniche
completamente non-supervisionate (realtà al suolo non disponibile ad alcuna data).
In tale ambito operativo il precedente progetto PRIN-COFIN 2000 aveva verificato la
fattiobilità di utilizzo di due metodologie di analisi parzialmente supervisionata di immagini
multitemporali, focalizzate sulla classificazione rispettivamente di coppie di immagini della
medesima area geografica e di sequenze di immagini, composte da più di due date. L'attività del
presente progetto è stata finalizzata a proseguire l'attività di ricerca su entrambe queste tematiche,
14
integrando in esse nuovi algoritmi di analisi, ottimizzandone le prestazioni ed automatizzandone
(totalmente o parzialmente) i processi di elaborazione. Entrambe le tecniche sviluppate sono state
integrate, nell’ambito della quarta fase di progetto, nel pacchetto software reso disponibile come
prodotto del progetto stesso. I successivi sotto-paragrafi raccolgono le conclusioni raggiunte circa
ciascuna di queste tematiche di ricerca.
3.1.2. Classificazione parzialmente supervisionata di coppie di immagini
Il sistema sviluppato dall’UR di Genova di classificazione parzialmente supervisionata per
coppie di immagini della medesima area geografica assume disponibile una mappa di realtà al suolo
(usata a fini di training) solo alla prima data di acquisizione ed integra informazioni di clustering
("K-medie") con un risultato di rivelazione non supervisionata dei cambiamenti (ottenuto
combinando l'approccio image differencing con il metodo di sogliatura non supervisionata di Kittler
ed Illingworth) per generare: (a) una mappa di classificazione ibrida supervisionata/nonsupervisionata per la prima data di osservazione e (b) una mappa di classificazione parzialmente
supervisionata per la seconda data. In particolare, tali mappe sono ottenute assegnando a ciascun
cluster alla prima data un'etichetta di classe tematica (definita dalla mappa di training) e
"propagando" a ciascun cluster alla seconda data le etichette di classe note dalla mappa di training
per la prima data. Inoltre, il metodo identifica anche la possibile comparsa di classi "nuove", ossia
di tipologie di copertura al suolo presenti alla seconda data, ma non alla prima. Il sistema proposto
effettua tutte queste procedure di cluster labelling applicando criteri di classificazione Bayesiana a
livello di cluster e stimando le probabilità condizionali coinvolte in tali regole di decisione in
funzione delle intersezioni spaziali fra i cluster, le regioni di training per la prima data e le regioni
di "cambiamento" e "non-cambiamento".
Inoltre, il sistema automatizza completamente anche il processo di selezione del numero di
cluster da scegliere a ciascuna data di acquisizione (problema intrinseco all'approccio di clustering
"K-medie"), esprimendolo come la massimizzazione di un opportuno funzionale che rappresenta
una stima della probabilità di decisione corretta a ciascuna data. Il metodo genera cioè a ciascuna
data una sequenza di mappe di clustering con valori crescenti del numero di cluster e valida
ciascuna soluzione di clustering calcolando il valore corrispondente del funzionale.
L'intero sistema proposto di classificazione risulta quindi completamente automatico;
l'interazione con un operatore è richiesta soltanto a valle del processo di elaborazione per assegnare
un significato "semantico" alle etichette "simboliche" assegnate alle "classi nuove" identificate
dall'algoritmo, non disponendo per queste classi di alcuna informazione a priori. Il sistema include
inoltre un modulo di pre-elaborazione dei dati (funzionale all'uso di image differencing in fase di
15
change detection) finalizzato ad identificare e rimuovere eventuali coperture nuvolose presenti nelle
bande ottiche ad una delle due date (e non all'altra) ed a ridurre eventuali differenze nella dinamica
delle bande stesse alle due date.
La sperimentazione del sistema, effettuata su un data set multitemporale e multisensore
(Landsat-5 TM ed ERS-1 SAR), caratterizzato dalla presenza di tipologie di copertura al suolo con
elevata sovrapposizione nello spazio delle feature (es.: "suolo nudo", "cereali" e "mais") ha
evidenziato come il metodo ottenga, ad entrambe le date di acquisizione, valori elevati di
accuratezza complessiva di classificazione sul test set (overall accuracy, OA: 92.03% per la prima
data e 91.11% per la seconda). In particolare, l'andamento dei funzionali proposti per
l'ottimizzazione del numero K di cluster a ciascuna data in funzione di K si è rivelato, ad entrambe
le date, fortemente correlato con l'andamento dell'accuratezza OA ottenuta sul test set, il che
suggerisce una buona efficacia di tali funzionali nel ruolo di stimatori della probabilità di decisione
corretta. Ciò è ulteriormente confermato dal fatto che, sul data set in esame, per ciascuna data, i
massimi globali di OA e del funzionale proposto sono stati ottenuti in corrispondenza del medesimo
valore di K: selezionando quindi la soluzione di clustering corrispondente al massimo valore del
funzionale ha quindi permesso di identificare, su tale data set, il risultato di classificazione
caratterizzato dal massimo valore di OA.
Si può tuttavia osservare che, malgrado tali valori elevati di OA, per le classi spettralmente
più sovrapposte il sistema può comunque fornire accuratezze piuttosto basse. Ciò è coerente col
fatto che la scelta del numero di cluster è guidata dalla massimizzazione di uno stimatore di
probabilità di decisione corretta, che risulta quindi implicitamente connesso con OA. Per mitigare
tale criticità del sistema, l'uso di funzionali modificati, legati non ad OA, ma all'accuratezza media
di classificazione (average accuracy, AA) o all'accuratezza minima sulle singole classi può essere
presa in considerazione.
Inoltre, il modulo di pre-elaborazione per rimozione di nuvole e miglioramento della
dinamica, applicato sia sul data set sopra-citato sia su alcune sue versioni artificialmente modificate
(per focalizzare l'attenzione sul problema della presenza di nuvole e di differenze nella dinamica
alle due date), si è rivelato efficace, identificando correttamente le aree nuvolose e riducendo
fortemente il root mean square error (RMSE) fra le aree di "non-nuvola" alle due date.
La sperimentazione ha anche coinvolto l'opportunità di modificare il sistema, introducendo in
esso: (a) l'uso della versione multi-soglia del metodo di Kittler ed Illingworth; (b) l'uso di distanza
di Mahalanobis al posto dell'usuale metrica euclidea adottata implicitamente dall'approccio image
differencing; (c) l'adozione del metodo di clustering ISODATA al posto di "K-medie". Le
modifiche (a) e (b) all'architettura del sistema hanno consentito di ottenere leggeri miglioramenti di
16
accuratezza di classificazione, pur a discapito di un incremento del tempo di calcolo. L'approccio
multi-soglia, in particolare, consente di prendere in considerazione la possibile presenza di più
tipologie distinte di cambiamento all'interno di ciascun cluster e permette di ottenere un leggero
incremento di accuratezza, anche se la ricerca esaustiva di un insieme di soglie ottime (e non di una
singola soglia) effettuata dalla versione multi-soglia della tecnica di Kittler ed Illingworth coinvolge
lunghi tempi di elaborazione. L'uso della distanza di Mahalanobis in fase di change detection è
finalizzato a migliorare la mappa dei cambiamenti, sfruttando l'informazione legata alla
distribuzione dei campioni di ciascun cluster nello spazio delle feature. La massima accuratezza
raggiungibile in tal modo si rivela leggermente superiore rispetto a quella ottenibile con metrica
euclidea, pur ottenendosi una correlazione meno forte fra gli andamenti di OA e del funzionale
proposto di ottimizzazione del numero di cluster alla seconda data. Infine, l'uso nel sistema
sviluppato di ISODATA permette di effettuare l'ottimizzazione del numero di cluster anche senza
l'introduzione di funzionali di validazione e senza la generazione di sequenze di mappe di
clustering, il che consente di ottenere una riduzione del tempo di calcolo complessivo (senza
significative variazioni di accuratezza). Tuttavia, ISODATA presenta ulteriori parametri interni (es.:
parametri di split e merge) che vanno configurati manualmente prima dell'applicazione del metodo,
il che coinvolge quindi un'ulteriore interazione con l'utente. L'uso dei funzionali proposti per
automatizzare tale procedura risulta infatti poco vantaggioso rispetto al caso di "K-medie" perchè
richiede di generare nuovamente una differente mappa di clustering per ciascuna configurazione dei
parametri (opportunamente discretizzati): se quindi, nel caso di "K-medie", il problema di selezione
di una soluzione di clustering ottima era esprimibile come la massimizzazione di un funzionale del
solo parametro (scalare) K, nel caso di ISODATA, il problema si tradurrebbe nella
massimizzazione di un funzionale definito sullo spazio multi-dimensionale dei parametri interni del
metodo, il che introdurrebbe un significativo incremento del tempo di calcolo.
3.1.3. Classificazione contestuale parzialmente supervisionata per sequenze di immagini
La seconda tematica affrontata dall'UR di Genova nell'ambito dell'attività di progetto ha
riguardato l'analisi parzialmente supervisionata di sequenze di immagini mediante tecniche
contestuali basate su Markov Random Field (MRF). In particolare, il modello MRF mutuo
precedentemente sviluppato per classificazione multitemporale supervisionata è stato esteso qui al
contesto parzialmente supervisionato mediante integrazione con il metodo di clustering ISODATA.
Il modello, nello specifico, formalizza sia l'informazione spettrale (associata ai livelli di grigio di
ciascun pixel nelle varie bande di acquisizione) sia le informazioni di contesto spaziale (associata
alla correlazione fra pixel adiacenti nella stessa immagine) e temporale (associata alla correlazione
17
fra immagini acquisite a date diverse sulle medesima area geografica) mediante funzioni-energia,
pesate da opportuni coefficienti.
L'algoritmo di classificazione ottenuto applicando a tale modello MRF l'approccio Iterated
Conditional Mode (ICM) alla classificazione MAP contestuale è stato poi automatizzato,
sviluppando uno specifico algoritmo di ottimizzazione dei valori dei parametri interni del modello
(ossia i sopra-citati pesi delle funzioni-energia). Tale algoritmo è applicabile ad una vasta categoria
di modelli MRF ed esprime il problema della selezione di valori opportuni per i parametri del
modello in termini di un problema di soluzione di un sistema lineare di disuguaglianze, risolto
estendendo a tale contesto la tecnica di Ho-Kashyap (originariamente proposta per problemi di
calcolo ottimo di funzioni discriminanti lineari per classificazione binaria).
In primo luogo, per focalizzarsi sul problema dell'ottimizzazione dei parametri del modello,
una sperimentazione preliminare del metodo di ottimizzazione proposto è stata effettuata in un
contesto operativo completamente supervisionato su una sequenza di tre immagini SAR
polarimetriche e multi-frequenza (SIR-C/XSAR) della medesima area geografica. La tecnica di
ottimizzazione sviluppata si è rivelata, in tale esperimento, molto efficace, fornendo valori dei
parametri del modello MRF che permettono di generare mappe di classificazione molto accurate
(OA > 97%) per tutte le tre date di acquisizione (malgrado l'assenza di fasi preliminari di despeckle
sui dati SAR in ingresso). In particolare, le accuratezze ottenute con i parametri forniti dal metodo
proposto si rivelano molto simili a quelle ottenibili mediante ricerca esaustiva (a griglia) nello
spazio dei parametri.
La sperimentazione è stata poi focalizzata sul contesto parzialmente supervisionato, operando
su una sequenza di tre immagini ottiche (aquisite da Landsat-5 TM e da Landsat-7 ETM+) con
realtà al suolo disponibile solo alla prima data. Il modello MRF parzialmente supervisionato
proposto, combinato con l'algoritmo di ottimizzazione dei parametri ed inizializzato con i risultati di
clustering forniti da ISODATA fornisce mappe di classificazione con buoni valori di accuratezza
(OA > 86%), anche alle date di acquisizione prive di realtà al suolo. Nello specifico, il metodo
genera una sequenza di mappe di clustering contestuale multitemporale, a partire dalle quali è
possibile generare corrispondenti mappe di classificazione mediante una procedura di cluster
labelling (cfr. paragrafo precedente). Con riferimento alle date prive di realtà al suolo, tale
procedura è stata effettuata nel presente progetto mediante analisi foto-interpretativa delle mappe di
clustering stesse: una sua automatizzazione rappresenta un interessante sviluppo ulteriore di tale
attività di ricerca (cfr. paragrafo 3.1.2). Inoltre, l'introduzione del modello contestuale consente un
significativo incremento di accuratezza per tutte le tre date (risultato atteso). Ci si aspetta inoltre un
18
incremento maggiore in caso di uso di sequenze più lunghe di immagini, potendo il metodo sfruttare
efficacemente l’informazione contestuale temporale associata all’intera sequenza.
3.1.4. Segmentazione di imamgni multitemporali (propedeutica alla compressione)
Nel corso della ricerca, l’UR di Napoli ha sviluppato una tecnica per la segmentazione
supervisionata di immagini multitemporali. L’approccio seguito è quello statistico Bayesiano: la
mappa di segmentazione X è modellata come campo aleatorio, così come i dati (multitemporali)
osservati Y, e la mappa stimata è quella che ha la massima probabilità a posteriori (MAP):
x̂ = arg max p(x|y) = arg max p(y|x)p(x)
Per i dati osservati si assume l’indipendenza condizionale data la classe di appartenenza e, in
mancanza di informazioni contrastanti, una distribuzione gaussiana multivariata. Per la mappa di
segmentazione si assume invece un modello di tipo MRF (Markov random field) poiché questo
permette di portare in conto le dipendenze statistiche tra pixel vicini e, più in generali, in tutta
l’immagine.
La principale innovazione della tecnica proposta rispetto a quelle esistenti in letteratura
consiste nell’uso di un modello MRF con struttura ad albero, nel quale si associa ogni classe con un
nodo terminale di un albero binario, mentre i nodi intermedi rappresentano gruppi di classi, legati
tipicamente da caratteristiche spettrali, spaziali o da relazioni semantiche. Di conseguenza la
segmentazione avviene attraverso una sequenza di decisioni, associate ai nodi interni dell’albero a
partire dalla radice, che segmentano ogni volta la regione in esame in due nuove regioni, che sono
poi a loro volta segmentate ricorsivamente fino a raggiungere i nodi terminali. Questo approccio
presenta diversi importanti vantaggi rispetto a quello “piatto”, ad esempio:
• si possono usare modelli diversi per descrivere diverse strutture spaziali o spettrali;
• i parametri delle diverse regioni sono stimati localmente, sui dati di interesse;
• la segmentazione è molto più veloce perchè avviene come sequenza di split binari;
• la struttura dell’albero racchiude essa stessa informazioni sintetiche sulla semantica
dell’immagine.
L’algoritmo originario, sviluppato per il caso non supervisionato, viene modificato nel caso
supervisionato portando in conto le informazioni a priori sul numero di classi presenti e le
statistiche dei dati osservati per ogni classe. Questo permette di costruire a priori un albero di
classificazione (attraverso l’intervento dell’operatore in questa fase della ricerca) ed elimina i
notevoli problemi legati alla stima di questi parametri. La definizione dell’albero consente tra l’altro
19
di adattare il problema di segmentazione alla specifica natura delle immagini trattate: nel caso delle
immagini multitemporali, è stato definito un albero composto idealmente da due livelli, il primo
corrispondente alle classi presenti nella sola prima istanza temporale, il secondo che tiene conto
delle ulteriori ramificazioni dovute ai cambiamenti di copertura intercorsi in aree prima omogenee.
In tal modo l’albero offre una immediata lettura dell’evoluzione temporale delle immagini. Una
volta effettuata la scelta della struttura restano ancora notevoli gradi di liberta nell’algoritmo, legati
alla possibilità di scegliere un diverso modello MRF per ogni nodo, ad esempio sulla base delle
caratteristiche spettrali delle classi coinvolte oppure, dopo una segmentazione preliminare di
tentativo, su quelle spaziali o ancora in base al significato delle classi stesse. A valle di queste scelte
di progetto bisogna poi risolvere, naturalmente, i problemi di stima dei parametri del modello MRF
prescelto, che qui avviene a massima verosimiglianza, e l’ottimizzazione della funzione obiettivo
della stima, cioè la determinazione della mappa di segmentazione stessa, che viene condotta
attraverso l’algoritmo ICM (Iterated conditional modes).
L’applicazione della tecnica sviluppata per la segmentazione di immagini multitemporali di
prova ha fornito risultati molto incoraggianti. La percentuale di corretta classificazione, misurata su
un test di validazione, risulta in generale superiore a quella dei più comuni algoritmi di riferimento
(minima distanza e massima verosimiglianza), così come altre comuni misure di prestazioni estratte
dalla matrice di confusione dei dati. Inoltre l’albero associato alla mappa di segmentazione consente
un’immediata visione d’insieme delle variazioni temporali della copertura del suolo e può quindi
rappresentare un aiuto all’interpretazione dei dati. Infine, grazie alla natura gerarchica della
segmentazione e ad alcune opportune scelte di progetto, i tempi di elaborazione sono molto
contenuti rispetto ad altre tecniche basate su MRF, cosa non trascurabile per l’uso con grandi
database o per analisi ripetute dei dati.
3.1.5. Rivelazione non-supervisionata dei cambiamenti
Il primo obiettivo dell’UR di Trento, sul piano metodologico, ha riguardato lo sviluppo di
tecniche di rivelazione dei cambiamenti non supervisionate in grado di individuare l’eventuale
presenza di cambiamenti verificatisi al suolo senza alcun ausilio di informazioni a priori sull’area di
interesse. Tale tipo di approccio evita di dover svolgere l’oneroso, e talvolta irrelizzabile, processo
di raccolata di verità a terra. Le tipologie di tecniche non-supervisionate sviluppate nell’ambito di
questo progetto si basano sull’analisi statistica dell’immagine differenza (nel caso di elaborazione di
dati multispettrali) e dell’immagine rapporto (nel caso di elaborazione di dati SAR). Tali immagini
vengono entrambe calcolate sulla base di un confronto pixel a pixel di due immagini
georeferenziate e corregistrate acquisite sulla stessa area geografica in date differenti. L’aspetto più
20
critico di tali tecniche è l’individuazione della soglia di decisione che separa la classe di
cambiamento da quella di non cambiamento. Tale problema è stato affrontato adattando regole di
decisione statistica classiche (minimo errore, minimo rischio e Neyman-Pearson) al problema della
rivelazione dei cambiamenti. L’applicazione di tali metodologie richiede la conoscenza delle
distribuzioni statistiche associate alle classi di cambiamento e non cambiamento. Le informazioni
richieste sono state ottenute utilizzando l’algoritmo di Expectaion-Maximization per la stima di
parametri in problemi a dati incompleti, adottando di volta in volta il modello in grado di
approssimare al meglio i dati analizzati. In particolare l’analisi svolta ha dimostrato che
l’andamento delle classi di cambiamento e non cambiamento nel caso di dati acquisiti da sensori
passivi è ben approssimabile con una distribuzione Gaussiana, mentre i dati di tipo radar sono
meglio approssimati se si adotta un modello di tipo Gaussiana Generalizzata. Le distribuzioni di
dati più complessi richiedono l’adozione di modelli più flessibile come quello di mixutre di
Gaussiane. Le tecniche di decisione sviluppate nell’ambito del progetto sono quindi state applicate
ai risultati ottenuti dal blocco di stima. Ciascuna tecnica si è dimostrata particolarmente efficacie
nel soddisfare gli obiettivi per cui è stata sviluppata, così come ampiamente documentato nel
rapporto tecnico 3 § 2.1. Tuttavia, per irrobustire il processo di change detection ed incrementarne
l’accuratezza, ci si è posti l’obiettivo di sviluppare tecniche di fusione in grado di sfruttare al meglio
la molteplicità delle informazioni contenute nei dati telerilevati. In particolare sono state sviluppate
tecniche in grado di combinare l’informazione proveniente da diverse sorgenti informative quali
immagini acquisite in bande diverse, da sensori di diverso tipo o altre tipologie di dati. Sono stati
quindi realizzati i moduli di combinazione basati sulla regola di maggioranza e di media byesiana.
L’applicazione di tali tecniche ad un insieme di dati multispettrali, dove le diverse sorgenti
informative sono rappresentate dai diversi canali spettrali, ha dimostrato che è possibile ridurre gli
errori commessi dal processo di change detection (cfr. rapporto tecnico 3, § 2.2.4.2). Un ulteriore
incremento delle prestazioni delle tecniche proposte è stato ottenuto introducendo nel processo
l’informazione di contesto spaziale. Particolare accento va posto sulle tecniche appositamente
studiate per l’analisi delle immagini radar. In questo caso, oltre agli approcci basati sulla stima
esplicita dei parametri statistici delle classi di cambiamento e non cambiamento, è stato sviluppato
anche un modulo basato sul criterio di Kittler & Illingworth che perviene alla definizione della
soglia di decisione sulla base di una stima implicita di tali quantità. In entrambi i casi è stato
osservato come le metodologie automatiche proposte siano in grado di definire una soglia di
decisione molto vicina a quella definita in modo ottimo manuale. Tale verifica è stata realizzata
sulla base della verità a terra disponibile in fase di sperimentazione.
21
3.1.6. Rivelazione dei cambiamenti e della loro tipologia mediante tecniche parzialmente
supervisionate
Il secondo obiettivo dell’UR di Trento prevedeva lo sviluppo di tecniche di rivelazione dei
cambiamenti e della loro tipologia mediante un approccio parzialmente supervisionato. L’esplicita
richiesta di identificare la tipologia di cambiamento avvenuta al suolo, impone di dove integrare la
conoscenza a priori sull’area di studio nel processo di analisi delle immagini multitemporali.
Tuttavia, non è realistico pensare di poter affrontare il problema tramite approcci di classificazione
supervisionata applicati a tutte le immagini disponibili, poiché diventa troppo oneroso da un punto
di vista economico e pratico realizzare campagne di raccolta dati per tutte le date di acquisizione. È
stata quindi adottata una metodologia parzialmente supervisionata che assume di disporre di
informazione di verità a terra solamente ad una delle date considerate. Tale informazione è stata
quindi utilizzata per addestrare in maniera congiunta i classificatori associati alle due immagini
multitemporali. I classificatori adottati sono stati due: uno parametrico di tipo maximum likelihood
e uno non parametrico basato su rete neurale di tipo radial basis function. Entrambe le metodologie
proposte si sono dimostrate efficaci permettendo di ottenere accuratezze di classificazione superiori
all’85% sia per quel che riguarda l’accuratezza di transizione da una classe all’altra. Tuttavia, tali
sistemi risultano essere intrinsecamente meno accurati e robusti rispetto ai corrispondenti sistemi
supervisionati. Per ovviare a questa limitazione, in linea con quanto dichiarato in fase di proposta, è
stato sviluppato un insieme di classificatori multipli costituito dai due classificatori menzionati
precedentemente e da due classificatori ibridi ottenuti dai precedenti tramite un opportuno scambio
di parametri statistici. Il blocco di combinazione fonde le uscite dei diversi classificatori che
compongono il sistema tramite approcci di media byesiana e maggioranza, al fine di sfruttare in
maniera sinergica le peculiarità e la complementarietà di ciascun classificatore. La sperimentazione
ha messo in evidenza che il sistema di classificazione multiplo è in grado di soddisfare le attese.
Infatti, l’accuratezza congiunta sul data set considerato è superiore al 90% per entrambi i metodi di
combinazione.
3.2. Sviluppi futuri
3.2.1. Classificazione multitemporale di immagini e rivelazione dei cambiamenti
L'analisi sperimentale condotta con riferimento al sistema proposto dall’UR di Genova di
analisi multitemporale per coppie di immagini ha evidenziato l'efficacia del metodo nel generare
mappe con valori elevati di accuratezza complessiva OA, anche se talora con valori più bassi di
accuratezza su classi caratterizzate da forti sovrapposizioni spettrali. Tale risultato suggerisce
22
l'opportunità di un'ulteriore generalizzazione del metodo mediante l'integrazione in esso di
funzionali differenti per la validazione delle soluzioni di clustering basati non su una stima della
probabilità di decisione corretta (implicitamente legata ad OA) bensì sull'accuratezza media o sulla
minima accuratezza per classe. Ciò potrebbe consentire di migliorare le prestazioni di
classificazione ottenute anche sulle classi più sovrapposte, generando quindi mappe di
classificazione più accurate.
Inoltre, la versione attuale del sistema è stata basata sull'uso del metodo di clustering "Kmedie" (ed eventualmente su una sua sostituzione con ISODATA). Si ritiene di interesse verificare
l'integrabilità nel sistema stesso di strategie di clustering più sofisticate, ad esempio basate su
algoritmi di stima parametrica quali Expectation-Maximization (EM) (Redner et al., 1984) o
Stochastic Expectation-Maximization (SEM) (Celeux et al., 1995) (Moser et al., 2004) oppure
basate su modelli contestuali (Baraldi et al., 2000) (Dubes et al., 1989). In particolare, con
riferimento all'uso di clustering contestuale, si rivela quindi interessante verificare l'integrabilità
delle due strategie di analisi multitemporale sviluppate nell'ambito del progetto, estendendo
opportunamente gli algoritmi proposti di ottimizzazione del numero di cluster e di propagazione
delle etichette anche all'analisi di sequenze di immagini e combinandole con il modello MRF
multitemporale sviluppato e con il corrispondente metodo di ottimizzazione dei parametri. Ciò
consentirebbe lo sviluppo di un sistema completo di analisi parzialmente supervisionata di sequenze
di immagini telerilevate che coniugherebbe la completa automatizzazione che caratterizza il primo
dei due metodi sviluppati con lo sfruttamento efficace dell'informazione contestuale che caratterizza
il secondo metodo. Per tale sistema integrato si riterrebbe molto interessante una campagna
estensiva di sperimentazione non solo sulle sequenze di tre immagini citate nei paragrafi precedenti
ma anche su sequenze di immagini più lunghe di quelle finora impiegate.
3.2.2. Segmentazione di imamgni multitemporali (propedeutica alla compressione)
Sebbene la tecnica proposta dall’UR di Napoli abbia già fornito dei risultati interessanti, lo
sviluppo è ancora in una fase iniziale e ci sono certamente ampi margini di miglioramento, anche
legati a modifiche banali nei vari passi di elaborazione che non sono state ancora implementate solo
per motivi di tempo. Fra queste vanno senz’altro annoverate la tecnica di stima dei parametri, che
qui avviene in modo abbastanza elementare a massima verosimiglianza e che potrebbe invece
avvalersi di algoritmi più sofisticati come l’Expectation-Maximization, ormai ampiamente diffusi
per problemi di questo tipo. Inoltre, a patto di sacrificare qualcosa sul versante dei tempi di
elaborazione, si potrebbe sostituire all’ICM un algoritmo più affidabile per la ricerca della mappa di
segmentazione ottima, come il simulated annealing. Anche dal punto di vista del modello dei dati, il
23
modello gaussiano potrebbe essere banalmente sostituito da modelli di maggiore generalità, ad
esempio quello gaussiano generalizzato, che potrebbero ulteriormente migliorare la qualità di
segmentazione a patto di riuscire a stimarne correttamente i parametri.
Modifiche più significative coinvolgono invece gli aspetti più alti della modellistica. Un
interessante aspetto da approfondire è la scelta automatica dell’albero di classificazione che meglio
si adatta al problema in esame ed alle informazioni a priori (o anche a posteriori) disponibili
sull’immagine. Esperimenti preliminari hanno mostrato che tale scelta può avere effetti non
trascurabili sulla segmentazione finale. C’è poi un importante grado di libertà da sfruttare che
riguarda la scelta dei modelli MRF ai nodi dell’albero. Finora si è lavorato esclusivamente con il
modello di Potts, il più semplice, caratterizzato da un solo parametro, ma sono stati sviluppati
modelli più raffinati, adatti a problemi particolari, che potrebbero essere sostituiti al Potts, anche
dinamicamente, in funzione delle statistiche locali o del significato delle classi. Anche in questo
caso, tuttavia, va accuratamente valutato l’aumento di complessità di elaborazione e di stima che
potrebbe derivare da scelte di questo tipo.
3.2.3. Tecniche di rivelazione dei cambaimenti non supervisionate e parzialmente
supervisionate
Entrambi gli obiettivi perseguiti nell’ambito di questo progetto dall’UR di Trento risultano
essere di importanza strategica per lo sviluppo di applicazioni reali dell’analisi di immagine
telerilavate multitemporali. La parziale o mancante disponibilità di informazioni di verità a terra
rende le tecniche proposte particolarmente adatte ad essere impiegate in situazioni operative
laddove realizzare campagne di acquisizione dati risulta essere troppo oneroso in termini di tempo e
costi o particolarmente difficoltosa a causa della topografia del terreno. Tale tipologia di
applicazioni è in continuo aumento grazie alla crescente frequenza con cui i dati telerilevati
vengono acquisiti e alla necessità e capacità di elaborarli in tempi sempre più brevi. In questa ottica
l’UR di Trento ritiene sia di particolare interesse approfondire ulteriormente le metodologie di
rivelazione dei cambiamenti non supervisionate e parzialmente supervisionate proposte al fine di
incrementarne la flessibilità rispetto alle possibili applicazioni reali.
Per quanto concerne le tecniche di rivelazione dei cambiamenti non supervisionate sviluppate
nell’ambito di questo progetto, si intende estenderle affinché siano in grado di individuare la
presenza di cambiamenti multipli nella zona di interesse, ovvero di più soglie di decisione. Tale
ottimizzazione renderebbe le metodologie proposte più flessibili rispetto a situazioni applicative
reali, dove è facile che si verifichino cambiamenti multipli. In secondo luogo, l’UR di Trento
prevede di irrobustire ulteriormente il processo di rivelazione dei cambiamenti perzialmente
24
supervisionato sviluppando altre tecniche di classificazione compund in grado di gestire la
complessità delle distribuzioni statistiche di diverse tipologie di dati. Infine, un ultimo obiettivo
dell’UR di Trento è quello di sperimentare tutto il pacchetto software sviluppato in diverse
situazioni operative caratterizzate dalla presenza di cambiamenti associati a diversi fenomeni.
3.3. Bibliografia
[A.1] Baraldi, A., Blonda, P., Parmiggiani, F., Satalino, G.: 2000, "Contextual clustering for image
segmentation", Optical Engineering, vol. 39, no. 4, pp. 907-923.
[A.2] Celeux, G., Chauveau D., Diebolt, J.: 1995, “On stochastic versions of the EM algorithm”,
INRIA Research Report no. 2514.
[A.3] Dubes, R. C., Jain, A. K.: 1989, "Random field models in image analysis", J. Appl. Stat.,
vol. 16, pp. 131–163.
[A.4] Moser, G., Zerubia, J., Serpico, S. B.: 2004, “Dictionary-based Stochastic ExpectationMaximization for SAR amplitude probability density function estimation”, INRIA Research
Report no. 5154.
[A.5] Redner, R. A., Walker, H. F.: 1984, “Mixture densities, maximum likelihood, and the EM
algorithm”, SIAM Review, vol. 26, no. 2, pp. 195-239.
25
4. WP3 – ANALISI DI IMMAGINI IPERTEMPORALI
Unità di Ricerca coinvolte nello sviluppo del WP3: Pisa, Firenze
Responsabile WP3: L. Alparone – Responsabile UR Firenze
Responsabile UR Pisa: M. Diani
L’argomento affrontato nel WP3 riguarda lo studio di tecniche per elaborazione di sequenze
d’immagini telerilevate ipertemporali. Le immagini sono state acquisite con una frequenza di
campionamento temporale molto elevata. Tra le possibili applicazioni nel campo del monitoraggio
ambientale, è di particolare interesse la sorveglianza di vaste zone finalizzata alla rivelazione
dell’insorgere di anomalie. Con il termine "anomalia" s’intende una regione nell'immagine, di solito
di piccole dimensioni, in cui si manifesta un cambiamento delle caratteristiche del segnale. Tale
anomalia può rappresentare l'insorgere di un fenomeno legato ad un rischio ambientale, ad esempio
un focolaio d'incendio.
Le Unità di Ricerca che si sono interessate a questo WP sono quella di Pisa e quella di
Firenze. In particolare, l’unità di ricerca di Pisa si è occupata dello studio di tecniche per la
rappresentazione efficiente dei dati ipertemporali e dell’analisi di nuovi algoritmi per la rivelazione
dei fenomeni da monitorare; inoltre, in qualità di responsabile del WP3, ha curato l’attività di
coordinamento delle due sedi coinvolte. L’Unità di Ricerca di Firenze, invece, si è occupata della
modellazione statistica dei dati ipertemporali acquisiti da termocamera. In particolare, sono stati
studiati modelli statistici del primo e secondo ordine atti a descrivere i fenomeni di disturbo presenti
in sequenze di immagini termiche: funzioni densità di probabilità dell’ampiezza (PDF) capaci di
rappresentare disturbi a statistica non gaussiana (“heavy-tailed distribution”) e funzioni di
covarianza spaziali e temporali. Il lavoro svolto da ciascun gruppo si è articolato in quattro fasi
fondamentali, ciascuna delle quali è stata documentata con relazioni tecniche:
PRIMA FASE (4 mesi).
Questa fase è stata dedicata al coordinamento iniziale con le unità che fanno parte del progetto
(Trento, Genova, Firenze e Napoli) e allo studio dello stato dell’arte mirato alla definizione delle
problematiche delle metodologie da affrontare e dei possibili algoritmi da sviluppare.
SECONDA FASE (8 mesi).
Questa fase è stata dedicata ad un’analisi teorica specifica per la messa a punto degli
algoritmi.
TERZA FASE (6 mesi).
26
In questa fase abbiamo ultimato ed aggiornato gli algoritmi che sono stati inseriti in una
piattaforma software, progettata dall’UR di Trento. Tale piattaforma sarà messa a disposizione in
rete. Oggetto di questa fase è stata, inoltre, la creazione e l’organizzazione di un data set (dati reali
e/o simulati) per l’analisi sperimentale delle prestazioni degli algoritmi. I dati sono stati acquisiti
con termocamera CEDIP, messa a disposizione dalla Divisione Elettroottica del C.I.S.A.M. (Centro
Interforze Studi Applicazioni Militari) che ringraziamo per la preziosa collaborazione.
QUARTA FASE (6 mesi).
La quarta ed ultima fase, che documenteremo in questo report, è stata dedicata alla sintesi
delle tecniche sviluppate e all’analizzati dei nuovi risultati sperimentali.
Nell’ambito dei temi d’interesse del WP3, le Unità di ricerca interessate sono quelle di Pisa e
di Firenze. L’UR di Pisa si è occupata delle seguenti problematiche legate all’elaborazione di
sequenze d’immagini telerilevate ipertemporali:
1) Studio di tecniche per la rappresentazione efficiente dei dati;
2) Studio di tecniche per la rivelazione di anomalie termiche.
L’UR di Firenze invece si è occupata dello:
3) Studio di tecniche per stimare i disturbi in sequenze di immagini.
Per quel che riguarda il punto 1), sono state studiate tecniche per la riduzione della
complessità dei dati. L'acquisizione di sequenze ipertemporali d’immagini è caratterizzata da un
flusso di dati estremamente elevato che rende molto difficile l'elaborazione degli stessi in tempo
reale. Pertanto, la fase di rivelazione vera e propria è stata preceduta da una fase di analisi mirata
alla diminuzione della quantità di dati da elaborare. Tale diminuzione è gradita anche perché molte
delle tecniche di rivelazione che abbiamo utilizzato si basano sulla stima dei parametri statistici che
caratterizzano il bersaglio e lo sfondo. Tali stime possono risultare inadeguate quando il numero di
dati con cui stimare i parametri non è sufficientemente grande; conseguentemente gli algoritmi che
ne fanno uso perdono molta della loro efficacia. Per questi motivi, la riduzione della dimensionalità
dei dati, comporta un miglioramento degli algoritmi di rivelazione che risultano avere, non solo una
maggiore efficienza computazionale, ma anche migliori prestazioni. Per la risoluzione di questa
problematica abbiamo sviluppato una tecnica computazionalmente efficiente che calcola, in modo
iterativo, la trasformata di Karhunen-Loeve (KLT) [B.1]. Si ricorda che tale metodologia permette
di rappresentare la sequenza di frame mediante proiezione su un sottospazio vettoriale di
dimensioni ridotte, limitando in modo consistente la complessità di calcolo degli algoritmi per la
27
rivelazione, il riconoscimento ed il tracciamento di anomalie. Oltre che per la riduzione della
complessità dei dati, l’algoritmo KLT si è dimostrato utile anche per la sima del rumore e la
rimozione del clutter. Questa analisi, infatti, può essere facilmente eseguita sfruttando il fatto che,
quando la termocamera è fissa, i contributi di sfondo e rumore possono essere rimappati su un
sottospazio vettoriale ortogonale a quello in cui giace il segnale utile (anomalia in movimento) e
quindi possono essere facilmente rimossi.
Per quanto riguarda il punto 2), invece, è stata studiata ed implementata una tecnica per la
rivelazione di anomalie all'interno della scena monitorata. Infatti, nelle situazioni di maggiore
interesse pratico, il fenomeno di interesse (segnale utile) non è noto a-priori. Pertanto, per rivelarlo,
si è dovuto fare affidamento sulla conoscenza delle caratteristiche dello sfondo. L’algoritmo
definito dall’Unità di Ricerca di Pisa è efficiente dal punto di vista computazionale e,
conseguentemente, adatto per essere utilizzato in un sistema di videosorveglianza. Tale sistema di
rivelazione può trovare applicazione in diversi campi come il monitoraggio ambientale, la
sorveglianza di aree industriali, la rivelazione di anomalie su uno sfondo strutturato.
L’Unità di Firenze si è occupata della modellazione statistica dei dati ipertemporali acquisiti
da termocamera. In particolare sono stati investigati modelli statistici del primo e secondo ordine
atti a descrivere i fenomeni di disturbo presenti in sequenze d’immagini termiche: funzioni densità
di probabilità dell’ampiezza (PDF) capaci di rappresentare disturbi a statistica non gaussiana
(“heavy-tailed distribution”) e funzioni di covarianza spaziali e temporali.
Sulla base dei risultati ottenuti, l’UR di Firenze ha definito una procedura automatica per
stimare i disturbi in sequenze d’immagini. Per ciascun quadro della sequenza vengono prodotti i
coefficienti di correlazione (CC) del rumore “along-track” e “across-track”, la varianza e la
distribuzione empirica dei valori di rumore, nonché il corrispondente modello di PDF gaussiana
generalizzata. Tali parametri permettono di validare il presunto modello di statistiche spaziali tempo
invarianti. Infine, vengono misurati i CC del rumore tra coppie di quadri della sequenza a distanza
temporale variabile, in modo da ricostruire la matrice di covarianza temporale del rumore (in ipotesi
di ergodicità). Tale procedura è stata collaudata su sequenze video standard e preliminarmente i
singoli moduli sono stati validati su immagini fisse affette da rumore simulato.
4.1.1. Tecniche per la rappresentazione efficiente dei dati e la rivelazione di anomalie
Nel paragrafo che segue sintetizzeremo brevemente le tecniche individuate in merito al punto
2) e riporteremo i risultati sperimentali ottenuti sulle sequenze acquisite. Una delle problematiche
per rivelazione di anomalie di piccole dimensioni è che, tipicamente, sono caratterizzate da basso
SCR, del quale ricordiamo la definizione sulla base del seguente modello di segnale ricevuto:
28
y (i, j, k) = a ⋅ g (i, j ) + ηb (i, j , k ) + σ b (i, j , k )n(i, j , k )
(4.1)
con g(i, j) abbiamo indicato la forma del bersaglio. Il modello dello sfondo utilizzato si basa su una
ipotesi largamente accertata [B.2],[B.3],[B.4] che considera il background come un processo
casuale gaussiano con valor medio e varianza variabili: ηb (i, j , k ) e σ b (i, j , k ) , mentre n(i, j , k ) è
un processo casuale gaussiano bianco [B.2],[B.5] con valor medio nullo e deviazione standard
unitaria. Sulla base del modello proposto in (4.1), abbiamo definito il Rapporto Segnale Clutter
(SCR – Signal Clutter Ratio) come il rapporto tra l’energia del segnale utile a ⋅ g (i, j ) e la potenza
del rumore di sfondo. Tipicamente, tale rapporto è espresso in dB:
SCR = 20 log10 (
a
)
σb
(4.2)
Lo studio condotto dall’UR di Pisa, in merito all’individuazione di anomalie in sequenze di
immagini telerilevate ipertemporali, è stato suddiviso in due fasi: rimozione dello sfondo e
rivelazione. L’individuazione di tecniche di rimozione del clutter di sfondo è utile perché, se
correttamente eseguite, aumentano la rivelabilità del segnale d’interesse semplificando la successiva
fase di rivelazione. I requisiti fondamentali di queste metodologie sono: capacità di soppressione del
clutter di sfondo e la capacità di preservare le eventuali anomalie. Per la quantificazione di queste
caratteristiche abbiamo identificato due parametri statistici che saranno utilizzati per la valutazione
e il confronto delle prestazioni degli algoritmi implementati. Il primo parametro, che abbiamo
definito CSI (Clutter Suppression Index), è il rapporto fra l’energia del residuo dopo la rimozione
dello sfondo e l’energia dell’immagine di partenza:
CSI =
{
E [ y (i, j , k ) − x(i, j , k )] 2
{
E [ y (i, j , k )] 2
}
}
(4.3)
dove, abbiamo indicato con y (i, j , k ) l’immagine di partenza (modello in (1)), mentre x(i, j , k )
rappresenta l’immagine dei residui dopo la rimozione del clutter. Il calcolo del MSE è stato eseguito
al variare delle dimensioni finestra di filtraggio (N). Si intuisce facilmente che quanto più basso è il
valore di CSI ottenuto, tanto meglio è stato rimosso lo sfondo.
Il secondo parametro utilizzato per l’analisi delle tecniche di rimozione del clutter è il
Rapporto Segnale Clutter (4.2) locale. Questo parametro è necessario per quantizzare la capacità di
non-soppressione dell’anomalia. È facile intuire che, l’anomalia è mantenuta quando il rapporto
SCR locale su x(i, j , k ) (dopo la rimozione) è pari o superiore a quello valutato prima della
29
rimozione (su y (i, j , k ) ). In fase di sperimentazione abbiamo simulato su alcune delle sequenze
acquisite una serie di anomalie poste in posizioni opportune, ciascuna di esse con SCR locale pari a
10 dB. L’ ampiezza di ciascuna anomalia è stata calcolata invertendo la (4.2):
SNR
10 10
^
a = σb ⋅
(4.4)
^
Il valore della deviazione standard dello sfondo ( σ b ) è stato stimato utilizzando una finestra locale
centrata sul bersaglio (i pixel del target sono stati esclusi dalla stima). L’anomalia è stata simulata
con forma gaussiana bidimensionale ([B.6] e [B.7]) secondo la seguente formula:


 1  i
g(i, j ) = exp− 
 2  σ i

2
 j

 + 
σj






2 
 


(4.5)
Original image + anomaly (20 dB)
6100
50
6000
5900
100
ANOMALIA
5800
SIMULATA
5700
150
5600
200
5500
5400
10
Figura 4.1
20
30
40
50
60
70
80
90
100
Una frame della sequenza simulata costituita da sfondo strutturato+anomalia gaussiana
bidimensionale con SCR=10dB.
30
ANOMALIA
SIMULATA
Figura 4.2
Una frame della sequenza dei residui ottenuta con la tecnica di rimozione dello sfondo
Max_Median. Per il filtraggio abbiamo utilizzato una finestra mobile di dimensioni 7x7 pixel.
L’SCR locale dopo la rimozione è 10.7 dB (l’anomalia è stata preservata nel filtraggio).
I parametri σ i e σ j rappresentano la deviazione standard lungo la riga (i, indice di riga) e la
colonna (j, indice di colonna), ovvero le dimensioni del target, che abbiamo così fissato:
σ i = σ j = 1 . In Figura 4.1 e Figura 4.2 riportiamo un esempio di simulazione, in particolare in
Figura 4.1 è visualizzata una frame della sequenza simulata (anomalia+sfondo strutturato), mentre
in Figura 4.2 è riportata una frame della sequenza dei residui, ottenuti con la tecnica di filtraggio
Max_Median. Come detto precedentemente, per confrontare in modo rigoroso le tecniche di
rimozione dello sfondo abbiamo calcolato l’SCR locale e l’ENERGY_RATIO al variare delle
dimensioni N della finestra utilizzata per il filtraggio. In particolare, riportiamo i risultati ottenuti
sulle sequenze simulate visualizzate e descritte nelle Figura 4.3-Figura 4.6. Su tali sequenze
abbiamo implementato la metodologia di rimozione dello sfondo Local Mean Removal [B.8]
(rimozione della media spaziale da ciascuna frame); la tecnica Local Median Removal [B.9]
(rimuove la mediana spaziale) e le tecniche Max Median e Max Mean [B.10, B.11], che,
ricordiamo, sono metodologie di filtraggio basate sulla combinazione di filtri monodimensionali a
mediana/media. In tutti e quattro i casi, la stima la stima dei parametri (media e mediana) è stata
eseguita con una finestra mobile (detta anche Kernel) di dimensioni 2N + 1.
31
50
100
150
Figura 4.3
50
100
150
200
250
300
Sequenza simulata. La sequenza è costituita da uno sfondo strutturato reale sul quale sono state
simulate otto anomalie termiche, posizionate su sfondo uniforme, con SCR = 10 dB (l’intensità delle
anomalie nella figura è aumentata per renderle visibili).
ENERGY RATIO
-1
10
Local Mean Removal
Max Mean Algorithm
Max Median Algorithm
Local Median Removal
-2
10
energy ratio
-3
10
-4
10
-5
10
-6
10
Figura 4.4
2
2.5
3
3.5
4
4.5
5
Window size (pixels)
5.5
6
6.5
7
Valutazione quantitativa dei metodi di rimozione del clutter. Il grafico fornisce indicazioni sulla
capacità di soppressione del clutter dei metodi analizzati in termini energia (MSE). Il confronto è
eseguito al variare della dimensione della finestra mobile utilizzata per la rimozione (N).
Nell’ambito delle sperimentazioni eseguite, la tecnica Max Median è quella che ha restituito
migliori risultati, come dimostrato dai grafici (Figura 4.4, Figura 4.5, Figura 4.7, Figura 4.8)
ottenuti
dall’implementazione
delle
quattro
tecniche
di
rimozione
sulla
sequenza
Avvicinamento_auto (descritta nel Rapporto Tecnico 3) sulla quale sono state simulate 8 anomalie
su sfondo uniforme e 5 su sfondo non uniforme (vicino a zone di transizione). Una volta eseguita la
32
rimozione dello sfondo e verificata la correttezza di tale operazione si potrà procedere
all’identificazione delle anomalie utilizzando un algoritmo di rivelazione (cfr. Rapporto Tecnico 3).
Per la rivelazione abbiamo riportato, a titolo di esempio, alcuni dei i risultati ottenuti dalla
rivelazione di anomalie su sequenze di immagini IR con uno sfondo strutturato non stazionario
spazialmente.
Local Signal to Clutter Ratio
12.5
Local Mean Removal
Max Mean Algorithm
12
11.5
SCRL (dB)
11
10.5
10
9.5
9
8.5
Figura 4.5
2
2.5
3
3.5
4
4.5
5
5.5
6
6.5
7
Valutazione quantitativa dei metodi di rimozione del clutter. In fase di sperimentazione abbiamo
simulato 8 anomalie termiche con 10 dB di SCR (locale) su uno sfondo strutturato reale. Il grafico
rappresenta SCR locale medio dopo la rimozione eseguita con i vari metodi al variare della
dimensione della finestra mobile utilizzata per la rimozione.
50
100
150
50
Figura 4.6
100
150
200
250
300
Sequenza simulata per le sperimentazioni. La sequenza è costituita da uno sfondo strutturato reale
sul quale sono state simulate cinque anomalie termiche, posizionate su sfondo non uniforme, con
SCR=10 dB (l’intensità delle anomalie nella figura è aumentata per renderle visibili).
33
CSI (Clutter Suppression Index)
ENERGY RATIO
-1
10
Local Mean Removal
Max Mean Algorithm
-2
10
energy ratio
-3
10
CSI
-4
10
-5
10
-6
10
Figura 4.7
2
2.5
3
3.5
4
4.5
5
5.5
6
6.5
7
Valutazione quantitativa dei metodi di rimozione del clutter. Il grafico fornisce indicazioni sulla
capacità di soppressione del clutter dei metodi analizzati in termini energia. Il confronto è eseguito
al variare della dimensione della finestra mobile utilizzata per la rimozione.
Local Signal to Clutter Ratio
17
Local Mean Removal
Max Mean Algorithm
16
SCRL (dB)
15
14
13
12
11
10
Figura 4.8
2
2.5
3
3.5
4
4.5
5
5.5
6
6.5
7
Valutazione qualitativa dei metodi di rimozione del clutter. In fase di sperimentazione abbiamo
simulato un’anomalia termica con 10 dB di SCR (locale) su uno sfondo strutturato reale. Il grafico
rappresenta SCR locale dopo la rimozione eseguita con i vari metodi al variare della dimensione
della finestra mobile utilizzata per la rimozione.
34
Immagine originale
5800
20
5750
40
5700
60
5650
80
5600
100
120
5550
140
50
Figura 4.9
100
150
200
250
300
Un frame della sequenza utilizzata per l’implementazione dell’algoritmo di rivelazione che consiste
in due fasi: rimozione sfondo e rivelazione. Le dimensioni della sequenza sono 140x320x50,
rispettivamente righe, colonne e frame.
Immagine dopo il filtraggio
80
60
20
40
40
20
0
60
-20
80
-40
100
-60
-80
120
-100
140
50
100
150
200
250
300
Figura 4.10 In questa figura abbiamo visualizzato una frame della sequenza dopo la rimozione dello sfondo,
ottenuta implementando l’algoritmo Max_Median con una finestra mobile di 7x7 pixel (N=3).
35
Risultato filtraggio (massimo fra gli L)
60
20
50
40
40
60
30
80
20
100
10
120
50
100
150
200
250
300
Figura 4.11 La sequenza dei residui è stata filtrata con un banco di 9 filtri in velocità. La frame visualizzata
rappresenta il risultato del filtraggio (massimo fra i 9).
Rivelazione della anomalia
1
0.9
20
0.8
0.7
40
0.6
60
0.5
ANOMALIA
0.4
RIVELATA
80
0.3
100
0.2
0.1
120
50
100
150
200
250
300
0
Figura 4.12 Risultato dell’operazione di sogliatura sulla frame filtrata risultato. Se la statistica del generico
(i , j )
pixel 0 0 di Figura 4.11 supera la soglia ( λ ) allora tale pixel è messo a 1, altrimenti è 0. La
soglia è stata calcolata in modo da minimizzare la probabilità di falso allarme.
36
La sequenza utilizzata è costituita da uno sfondo rurale e da un’anomalia termica in
movimento, non visibile sulla singola frame. Sulla sequenza di dati così definita, abbiamo
implementato le due fasi di elaborazione previste, ovvero la rimozione del clutter di sfondo e la
rivelazione. In Figura 4.9 e Figura 4.10 sono visualizzate, rispettivamente, una frame della sequenza
originale e una frame della sequenza dopo la rimozione dello sfondo eseguita con tecnica
Max_Median. La fase di rivelazione è stata eseguita implementando l’algoritmo GRLT (Rapporto
Tecnico 3) sulle prime 50 frame della sequenza dei residui che sono state filtrate con un banco di 9
filtri in velocità (L=9). Il risultato massimo (fra gli L filtri) del filtraggio è visualizzato in Figura
4.11. Le statistiche ottenute, ovvero ciascun pixel della frame di Figura 4.11, sono state confrontate
con una soglia ( λ ) scelta secondo un criterio che minimizza la probabilità di falso allarme. In
Figura 4.12 riportiamo il risultato della decisione: l’anomalia è dichiarata presente quando la
statistica del generico pixel (i0 , j0 ) supera λ . Come si può osservare, l’anomalia è stata rivelata
senza falsi allarmi. I pixel rilevati sono stati cerchiati per renderli facilmente individuabili.
Le UR di Pisa e Firenze hanno contribuito al WP3 – Analisi di immagini ipertemporali del
progetto di ricerca sviluppando i seguenti temi:
1) rappresentazione efficiente dei dati;
2) modellazione statistica dei dati ipertemporali;
3) rimozione del clutter di sfondo (frame a frame);
4) rivelazione anomalie (basata su GRLT);
Per quanto riguarda il punto 4, è stata proposta un’originale tecnica di rivelazione basata
sull’integrazione di più frame. Le prestazioni di tale tecnica in termini di probabilità di falso allarme
e di rivelazione sono state ricavate per via analitica e confermate mediante dati sperimentali e
simulazioni. Attualmente, l’UR di Pisa sta
studiando una nuova tecnica, alternativa a quella
proposta, e basata su un approccio del tipo MHT (Multistage Hypothesis Testing). Una delle attività
previste in questo campo sarà quella di confrontare le prestazioni di questo nuovo approccio con
quelle ottenute mediante la metodologia di filtraggio 3D proposta in questo progetto. Per quanto
riguarda il punto 3 sono state proposte nuove tecniche per la fase di rimozione dello sfondo. Tale
fase è molto critica in quanto dalla sua buona riuscita dipendono le prestazioni di tutto il sistema di
rivelazione. Sono pertanto state proposte nuove tecniche per la stima e la rimozione dello sfondo ed
è stata effettuata un’analisi comparativa delle loro prestazioni su dati sperimentali. Sulla base dei
risultati ottenuti si sono individuati possibili sviluppi futuri di ricerca. Data l’importanza di questo
37
tema, l’UR di Pisa prevede infatti di approfondirne ulteriormente alcuni aspetti. In particolare, si
prevede di migliorare le prestazioni nella stima dello sfondo utilizzando nuove tecniche che si
basano sull’integrazione di più frame (filtraggio spazio-temporale). Su questo tema, sono in fase di
preparazione un articolo sottoposto a rivista ed uno a congresso internazionale.
Interessanti sviluppi sono inoltre attesi dai risultati ottenuti nella fase 2). In particolare, i
modelli di rumore studiati ed adattati alle sequenze di immagini IR, potranno essere utilizzati per
affinare gli algoritmi di analisi (vedi NAPCA, o tecniche affini) e per migliorare le prestazioni degli
algoritmi di rivelazione.
4.3. Bibliografia
[B.1] Avraham Levy and Michael Lindenbaum, Efficient Sequential Karhunen-Loeve Basis
Extraction, IEEE Transactions on Image Processing, pp 456-460, 2001.
[B.2] S.D. Blostein and T.S. Huang, Detecting Small Moving Objects in Image Sequences Using
Sequential Hypothesis Testing, IEEE Transaction on Signal Processing, vol. 39, n.7, July
1991.
[B.3] B. R. Hunt and T. M Cannon, Nonstationary assumptions for Gaussian Models of Images,
IEEE Transactions on Systems, Man and Cybernectics, December 1976, pp. 876-882.
[B.4] S. Reed and X. Yu, Adaptive Multiple-Band CFAR Detection of an Optical Pattern with
Unknown Spectral Distribution, IEEE Transaction on Acoustic, Speech and Signal
Processing, Vol. 38, n. 10, October 1990.
[B.5] Margalit, I.S., Reed, R.M. Gagliardi, Adaptive Optical Target Detection Using Correlated
Images, IEEE Transactions on Aerospace and Electronic Systems, vol. 21, no. 3, May 1985,
pp. 394-405.
[B.6] D. S. K. Chan, D. A. Langan and D. A. Staver, Spatial Processing Techniques for the
Detection of Small Targets in IR Clutter, SPIE Proceedings Signal and Data Processing of
Small Targets, vol. 1305, 1990, pp.53-62.
[B.7] D. H. Xue, An Extended Track-Before Detect Algorithm for Infrared Target Detection, IEEE
Transactions on Aerospace and Electronic Systems, Vol. 33, n. 3, July 1997, pp. 1087-1092.
[B.8] N.C. Mohaanty, Computer Tracking of Moving Point Targets in Space, IEEE Transactions
on Pattern analysis and machine intelligence, vol. PAMI-3, NO. 5, September 1981.
[B.9] Gonzalo R. Arce and Robert L. Stevenson, On the Synthesis of Median Filter Systems, IEEE
Transactions on Circuits and Systems, vol. CAS-34, no. 4, April 1987.
38
[B.10] Gonzalo R. Arce and Michael P. McLoughlin, Theoretical Analysis of the Max/Median
Filter, IEEE Transactions on Acoustic, Speech, and Signal Processing, vol. ASSP-35, No. 1,
January 1987, pp. 60-69.
[B.11] S.D. Deshpande, V. Ronda, P. Chan, Max-mean and Max-median filters for detection of
small targets, SPIE Conference on Signal and data Processing of small targets, vol. 3809,
no. 1, January 1987.
39
5. WP4 – COMPRESSIONE DI IMMAGINI
MULTI/IPERTEMPORALI
Unità di Ricerca coinvolte nello sviluppo del WP4: Napoli, Firenze
Responsabile WP4: G. Poggi – Responsabile UR Napoli
Nel corso della ricerca, l’UR di Napoli si è occupata della compressione region-based di
immagini multitemporali, basata cioè su segmentazione. Le tecniche considerate prevedono tutte
• segmentazione delle immagini;
• codifica lossless della mappa di segmentazione;
• compressione lossy della texture.
Sono state considerate numerose alternative per tutti questi aspetti. In particolare per la
segmentazione si sono considerate sia tecniche puntuali (a minima distanza) che contestuali
(Bayesiane basate su modello MRF), sempre implementate attraverso algoritmi ricorsivi, e quindi
con la generazione di mappe di segmentazione strutturate ad albero. Per quanto riguarda la
compressione della texture, invece, si è fatto uso della codifica con trasformata, e le principali
alternative considerate sono state la sequenza KLT-DCT seguita da quantizzazione scalare
adattativa, oppure la trasformata wavelet con codifica SPIHT. La scelta della combinazione
migliore si è basata non solo sulle prestazioni tasso-distorsione ma anche sui tempi di esecuzione,
che rappresentano un elemento importante per il successo di un’applicazione. A valle della fase di
sperimentazione preliminare si è dunque implementata la tecnica denominata TSVQ-KLT-DCTSQ, cioè con segmentazione a minima distanza, KLT spettrale, DCT spaziale per classi omogenee e
quantizzazione scalare parametrica con allocazione ottima delle risorse.
I risultati sperimentali sul data set di prova disponibile sono stati molto soddisfacenti. In
termini di prestazioni assolute, si può osservare che a tassi di codifica di 0.8 bit/pixel (rapporti di
compressione di 10:1, inattingibili da tecniche lossless) si sono ottenute immagini ricostruite senza
perdita di qualità apprezzabile, cioè virtualmente indistinguibili dalle originali, mentre a tassi più
bassi, intorno a 0.2-0.4 bpp, pur osservando un aumento della distorsione, si può dire che la qualità
è ancora del tutto adeguata alla maggior parte delle successive elaborazioni automatiche cui le
immagini possono essere sottoposte. In termini relativi, poi, la tecnica proposta basata
40
sull’approccio region-based permette di guadagnare da 2 a 4 dB rispetto alla corrispondente tecnica
convenzionale praticamente a tutti i tassi di codifica d’interesse.
L’UR di Firenze ha invece sviluppato un codificatore video "inter-frame", basato su
predizione spazio-temporale, di tipo "near-lossless", in grado cioè di controllare localmente l'errore
massimo in valore assoluto, fino alla totale reversibilità, opzione che può essere attivata in caso di
basse velocità di quadro o canale di comunicazione ad alta velocità. La caratteristica principale del
codificatore sviluppato è l'elevata semplicità strutturale e computazionale, che ne garantisce un
funzionamento in tempo reale su qualsiasi tipo di hardware commerciale. Per tale motivo è stato
studiato un predittore che permette di sfruttare la ridondanza temporale tipica di scene con bassa
evoluzione temporale (camera fissa). Il quantizzatore lineare consente sia compressione reversibile
(con passo uguale a 1) che irreversibile di tipo near-lossless (con passo intero dispari maggiore di
1).
I risultati di compressione sulle sequenze da termocamera video acquisite durante il progetto
all'interno del WP3 hanno dimostrato che è possibile ottenere un bit rate di circa 1.7 bit per pixel,
pari a circa 128 kbit/quadro con un errore massimo di ricostruzione pari a due livelli di
digitalizzazione, su una dinamica di 4096 livelli (12 bit). Tale valore di compressione pari a circa
sette è caratterizzato dal fatto che la varianza dell'errore di ricostruzione è circa un ordine di
grandezza inferiore rispetto al rumore di fondo del dato, la cui varianza è stata misurata all'interno
del WP3. Questo fatto, unito all'assenza di "code" nella distribuzione dell'errore di ricostruzione
garantisce che i dati compressi possiedono di fatto la stessa qualità di quelli non compressi. Questa
modalità operativa dei metodi di compressione "near-lossless" corrisponde ad un caso "virtualmente
senza perdita", mentre una compressione strettamente reversibile consentirebbe un rapporto di
compressione circa pari a tre.
Per quanto riguarda la compressione di immagini multitemporali, il prosieguo della ricerca
riguarderà due aspetti. In primo luogo si vuole ulteriormente sviluppare l’approccio di codifica
proposto passando ad una vera e propria codifica dinamica, nella quale non solo i parametri, ma
l’algoritmo stesso di codifica viene selezionato adattivamente in funzione delle caratteristiche della
regione in esame. Ad esempio, per una regione con una marcata texture potrebbe convenire
ricorrere a tecniche di codifica sintetica, mentre per zone molto dolcemente variabili si potrebbe
abbandonare l’approccio con trasformata ed usare una semplice approssimazione polinomiale.
Inoltre, restando nell’ambito della codifica con trasformata, si può adattare alle caratteristiche della
41
zona in esame il tipo della trasformata (KLT, DCT, WT) o, in ambito WT, la famiglia di filtri o i
livelli di decomposizione utilizzati. La seconda linea di ricerca riguarda invece l’utilizzo delle
potenzialità dell’approccio region-based per migliorare il servizio offerto all’utente. Si tratta di
identificare le feature di interesse nelle principali situazioni applicative, come la trasmissione delle
sole regioni di interesse (es. quelle affette da cambiamenti) oppure la trasmissione preliminare della
mappa di segmentazione dettagliata o delle sola mappa di change detection, o ancora la diversa
allocazione delle risorse alle regioni in funzione degli interessi dell’utente stesso.
Per la codifica di immagini ipertemporali, possibili sviluppi del metodo saranno possibili una
volta specificato il contesto applicativo. In particolare la velocità di trasmissione, la piattaforma di
calcolo, ed eventuali requisiti di qualità meno stringenti del caso “virtually-lossless” che potrebbero
consentire il ricorso a rapporti di compressione più elevati di sette. Le caratteristiche di basso
movimento delle scene monitorate fanno si che la predizione temporale non risulti critica: di fatto la
correlazione temporale del rumore deve essere sfruttata per la predizione, per cui il predittore può
essere essere ottimizzato una volta specificata la velocità di quadro. Nel caso siano richieste
prestazioni più spinte e qualora l’hardware lo consenta, è possibile utilizzare una predizione
adattativa, ad esempio che commuta tra un insieme limitato di predittori fissi ottimizzati sulle
caratteristiche geometriche degli errori di predizione spazio-temporali.
42

Elaborazione ed Analisi di Immagini Telerilevate

Transcript

Documenti analoghi

r/ //lgv - IIS "Majorana"

La nota USR 11153 del 18.10.2016 - Ufficio Scolastico Regionale

INSIEME PER LA SCUOLA INSIEME PER LA SCUOLA mercoledì 5

View - MED media education

1 Alessandro Vanoli, Quando guidavano le stelle. Viaggio

TUTELA DELLA PRIVACY DEI MINORI DICHIARAZIONE

Un documento di Education First sull`attività di ricerca e sul test

“De buc is on de teibol” (La farsa dell`Inglese alla Primaria)

Viaggio Premio in Germania 2015