Elaborazione ed Analisi di Immagini Telerilevate
Transcript
Elaborazione ed Analisi di Immagini Telerilevate
Ministero dell’Istruzione, dell’Università e della Ricerca PROGRAMMI DI RICERCA SCIENTIFICA DI RILEVANTE INTERESSE NAZIONALE Elaborazione ed Analisi di Immagini Telerilevate Multitemporali e Ipertemporali per il Monitoraggio Ambientale RAPPORTO TECNICO 4 Dipartimento di Informatica e Telecomunicazione Università di Trento Dipartimento di Elettronica e Telecomunicazioni Università di Firenze Dipartimento di Ingegneria Elettronica e delle Telecomunicazioni Università di Napoli Dipartimento di Ingegneria Biofisica ed Elettronica Università di Genova Dipartimento di Ingegneria dell’Informazione Università di Pisa Indice PREMESSA........................................................................................................................................4 1. OBIETTIVI FASE 4 ......................................................................................................................5 2. WP1 – COORDINAMENTO........................................................................................................6 2.1. UR di Trento – Coordinamento ............................................................................................6 2.2. Pacchetto software integrato .................................................................................................6 2.3. Divulgazione dei risultati del progetto .................................................................................7 2.3.1. Pubblicazioni connesse al progetto...................................................................................7 2.3.2. Altre modalità di divulgazione .......................................................................................13 3. WP2 – ANALISI DI IMMAGINI MULTITEMPORALI........................................................14 3.1. Sintesi delle tecniche sviluppate e dei risultati ottenuti ....................................................14 3.1.1. Classificazione multitemporale parzialmente supervisionata.........................................14 3.1.2. Classificazione parzialmente supervisionata di coppie di immagini..............................15 3.1.3. Classificazione contestuale parzialmente supervisionata per sequenze di immagini.....17 3.1.4. Segmentazione di imamgni multitemporali (propedeutica alla compressione)..............19 3.1.5. Rivelazione non-supervisionata dei cambiamenti ..........................................................20 3.1.6. Rivelazione dei cambiamenti e della loro tipologia mediante tecniche parzialmente supervisionate..................................................................................................................22 3.2. Sviluppi futuri.......................................................................................................................22 3.2.1. Classificazione multitemporale di immagini e rivelazione dei cambiamenti.................22 3.2.2. Segmentazione di imamgni multitemporali (propedeutica alla compressione)..............23 3.2.3. Tecniche di rivelazione dei cambaimenti non supervisionate e parzialmente supervisionate..................................................................................................................24 3.3. Bibliografia ...........................................................................................................................25 4. WP3 – ANALISI DI IMMAGINI IPERTEMPORALI............................................................26 4.1. Sintesi delle tecniche sviluppate e dei risultati ottenuti ....................................................27 4.1.1. Tecniche per la rappresentazione efficiente dei dati e la rivelazione di anomalie .........28 4.2. Sviluppi futuri.......................................................................................................................37 4.3. Bibliografia ...........................................................................................................................38 5. WP4 – COMPRESSIONE DI IMMAGINI MULTI/IPERTEMPORALI .............................40 MIUR – Multitemporale, Rapporto Tecnico 4 2 5.1. Sintesi delle tecniche sviluppate e dei risultati ottenuti ....................................................40 5.2. Sviluppi futuri.......................................................................................................................41 MIUR – Multitemporale, Rapporto Tecnico 4 3 Premessa Il presente rapporto tecnico descrive l’attività della quarta fase (mesi IXX-XXIV) del programma di ricerca scientifica di rilevante interesse nazionale “Elaborazione ed analisi di immagini telerilevate multitemporali e ipertemporali per il monitoraggio ambientale”, finanziato dal MIUR - Ministero dell’Istruzione, dell’Università e della Ricerca (COFIN Bando 2002, protocollo: 2002098554). La fase in esame è stata dedicata alla conclusione delle attività di ricerca, con l’esecuzione degli ultimi esperimenti circa le metodologie sviluppate di fusione-dati, ed alla produzione di un pacchetto software integrato che raccoglie tutti i moduli software sviluppati dalle UR coinvolte nel progetto. È stata conservata l’organizzazione dell’attività di ricerca in quattro Work Package (WP1 ÷ WP4), stabilita durante la prima fase mediante la definizione dei seguenti WP: • “WP1 – Coordinamento” (responsabile: UR di Trento), vi partecipano tutte le UR coinvolte nel progetto; Il WP1 è stato dedicato al coordinamento dell’intero programma di ricerca. Ciascuno delgli altri WP è centrato su uno specifico aspetto dell’analisi di dati telerilevati multitemporali e ipertemporali e coinvolge due o più UR partecipanti al progetto. • “WP2 – Analisi di immagini multitemporali” (responsabile: UR di Genova), cui partecipano le UR di Genova, Trento, Firene e Napoli; • “WP3 – Analisi di immagini Ipertemporali” (responsabile: UR di Pisa), cui partecipano le UR di Pisa e Firenze; • “WP4 – Compressione di immagini multitemporali e ipertemporali” (responsabile: UR di Napoli), cui partecipano le UR di Napoli e Firenze; Il presente Rapporto Tecnico è articolato in quattro capitoli, ciascuno dei quali si riferisce ad uno dei sopracitati WP: i capitoli 3-5 espongono le eventuali modifiche metodologiche e/o implementative apportate durante la quarta fase alle tecniche proposte, descrivono l’eventuale sperimentazione eseguita in tale periodo e sintetizzano brevemente l’attività di ricerca condotta nell’ambito dell’intero programma di ricerca, riassumendo i risultati più significativi e sottolineando i potenziali sviluppi futuri. Il capitolo 1 descrive l’attività di coordinamento condotta durante la quarta fase, focalizzandosi sulla produzione da parte delle UR coinvolte nel progetto del pacchetto software integrato. MIUR – Multitemporale, Rapporto Tecnico 4 4 1. OBIETTIVI FASE 4 Vengono di seguito riportati gli obiettivi della quarta fase definiti nella proposta del progetto. Tali obiettivi sono stati conseguiti, tramite le attività svolte ed i risultati ottenuti, come descritto nei prossimi capitoli. La Fase 4 è dedicata al completamento della sperimentazione per la validazione degli algoritmi ed all’integrazione del software delle singole tecniche sviluppate in un unico package. In questa fase le tecniche dovrebbero essere fondamentalmente assestate; potrebbero essere comunque necessarie modifiche minori la cui necessità potrebbe emergere dal completamento della sperimentazione prevista per questa fase, e relativa in particolare all'uso cooperativo e combinato di diverse tecniche. La sperimentazione verrà completata in questa fase e consentirà di assestare la documentazione relativa alle prestazioni e all' applicabilità dei moduli di fusione dati sviluppati. Attività fondamentale di questa fase sarà l' integrazione dei moduli software sviluppati. A tal fine si userà la piattaforma fornita dall'UR di Trento alle altre UR durante la riunione di coordinamento di fine della Fase 3. Le varie UR potranno così collaborare inserendo i moduli da ciascuna sviluppati nella propria copia della piattaforma. L’UR di Trento, ricevuti i moduli così predisposti, potrà integrare il package completo e distribuirlo alle UR per la sperimentazione. Si valuterà la necessità di un incontro ad hoc nel corso della Fase 4 (ad es. nel mese XXI). Ciascuna UR potrà infine sperimentare l'uso del package sviluppato e valutare le possibilità da esso offerte. In particolare contribuirà alla documentazione relativa all' uso, nell' ambito del pacchetto integrato, dei moduli da essa sviluppati. Nell’ambito della Fase 4 (ed eventualmente anche precedentemente) si provvederà alla divulgazione dei risultati della ricerca nell’ambito di uno o più dei seguenti eventi: sessioni di presentazione in occasione delle riunioni organizzate dal Gruppo TTI, Telecomunicazioni e Teoria dell' Informazione; workshop specifico sui temi della ricerca; sessione in occasione di un congresso nazionale o internazionale. MIUR – Multitemporale, Rapporto Tecnico 4 5 2. WP1 – COORDINAMENTO Unità di Ricerca coinvolte nello sviluppo del WP1 : tutte Responsabile WP1: L. Bruzzone – Responsabile UR Trento Responsabile UR Firenze: L. Alparone Responsabile UR Pisa: M. Diani Responsabile UR Napoli: G. Poggi Responsabile UR Genova: S. Serpico 2.1. UR di Trento – Coordinamento Nell’ambito della fase 4, il coordinamento ha riguardato, in particolare, l’interfaccia con il Ministero, il monitoraggio dello stato di avanzamento delle attività, la produzione, in collaborazione coi partner, del presente report e del pacchetto software integrato, e la sperimentazione del pacchetto stesso. Si è inoltre completata la stesura di un Allegato Tecnico che documenta funzionamento e modalità d’uso del pacchetto software e dei singoli moduli in esso integrati. Durante tale fase è stata organizzata una riunione collegiale, tenutasi il 14 ottobre 2004 a Trento, nell’ambito della quale è stata condotta un’analisi conclusiva dello stato di avanzamento delle attività di ricerca connesse al progetto, è stato fatto il punto della situazione circa le collaborazioni fra le UR coinvolte, il pacchetto software integrato e le modalità di divulgazione del pacchetto stesso e dei risultati scientifici ottenuti. Le attività relative alla fase 4 si sono concluse con una riunione telematica durante la quale sono state concordate le modalità di divulgazione del pacchetto software integrato e della documentazione prodotta nel corso del progetto. Nell'ambito di questa fase il coordinatore nazionale del progetto ha inoltre presentato le metodologie sviluppate nell'ambito del presente programma con i relativi risultati nel corso della riunione annuale 2004 del Gruppo Nazionale “Telecomunicazioni e Teoria dell'Informazione” (GTTI) (L’Aquila, 14-16 giugno 2004). 2.2. Pacchetto software integrato Attività principale della quarta fase di progetto è stata la produzione di un pacchetto software integrato che raccoglie tutti i moduli sviluppati nell’ambito del programma di ricerca, con l’obiettivo di costituire un toolbox di fusione di dati multitemporali, orientato ad applicazioni di monitoraggio ambientale mediante dati telerilevati, e reso disponibile a fini dimostrativi e didattici. MIUR – Multitemporale, Rapporto Tecnico 4 6 Sviluppata durante la fase precedente l’interfaccia Matlab del pacchetto, si sono realizzate nella presente quarta fase l’integrazione dei moduli software prodotti dalle singole UR e le operazioni di debugging e sperimentazione del pacchetto stesso. All’interno del pacchetto stesso è stata resa disponibile una documentazione “veloce”, richiamabile mediante l’istruzione “help nome_funzione”, in analogia allo stile dell’help in-linea di Matlab. Per fornire inoltre una descrizione estesa del funzionamento e delle modalità d’uso del pacchetto stesso è stato prodotto un Allegato Tecnico, cui si rimanda per tutte le specifiche di utilizzo del pacchetto. Descrizioni sul piano teorico e metodologico dei moduli stessi sono invece presentate nei Rapporti Tecnici precedenti. Durante la quarta fase è stata poi effettuata un’approfondita sperimentazione del pacchetto sui data set descritti nel Rapporto Tecnico 1, al fine di verificare corretto funzionamento e portabilità dell’interfaccia e dei singoli moduli. Quale risultato finale, il pacchetto software viene reso disponibile dal sito web http://dit.unitn.it/~rslab/COFIN2002. Durante la quarta fase in esame, le UR coinvolte nel progetto, instaurando un proficuo scambio reciproco di competenze software, hanno evitato eventuali problemi di portabilità, stabilendo di generare, a partire dagli script Matlab (file “.m”) non programmi eseguibili (file “.exe”) bensì file in formato “p-code” (file “.p”), che costituiscono il risultato dell’operazione di parsing applicata agli script stessi. I p-file risultanti vengono, infatti, richiamati esattamente come i corrispondenti script senza bisogno di librerie software di supporto, e risultano pertanto molto portabili. È stato infine verificato il corretto funzionamento dell’interfaccia e di tutti i moduli componenti il pacchetto integrato, mediante sperimentazione sotto piattaforma Matlab 6.5. Tale corretto funzionamento non è garantito, a priori, in ambiente Matlab precedente alla release 6.5. 2.3. Divulgazione dei risultati del progetto 2.3.1. Pubblicazioni connesse al progetto L’attività scientifica connessa al progetto ha dato luogo alle seguenti pubblicazioni dei membri delle UR partecipanti: Pubblicazioni su rivista internazionale: [R1] B. Aiazzi, L. Alparone, S. Baronti, A. Garzelli, “Coherence estimation from multilook incoherent SAR imagery, IEEE Transactions on Geoscience and Remote Sensing, Vol. 41, No. 11, pp. 2531-2539, Novembre 2003. MIUR – Multitemporale, Rapporto Tecnico 4 7 [R2] L. Alparone, S. Baronti, A. Garzelli, F. Nencini, “A global quality measurement of Pansharpened multispectral images”, IEEE Transactions on Geoscience and Remote Sensing Letters, Vol. 1, No. 4, pp. 313-317, Ottobre 2004. [R3] L. Alparone, S. Baronti, A. Garzelli, F. Nencini, “Landsat ETM+ and SAR image fusion based on generalized intensity modulation”, IEEE Transactions on Geoscience and Remote Sensing, Vol. 42, No. 12, pp. 2832-2839, Dicembre 2004. [R4] B. Aiazzi, L. Alparone, A. Barducci, S. Baronti, P. Marcoionni, I. Pippi, M. Selva, “Noise modelling and estimation of hyperspectral data from airborne imaging spectrometers,” Annals of Geophysics, Special Issue on Airborne Remote Sensing for Geophysical and Environmental Applications, 2005 (in stampa). [R5] F. Melgani, S. B. Serpico, “A Markov Random Field Approach to Spatio-Temporal Contextual Classification,” IEEE Transactions on Geoscience and Remote Sensing, Vol. 41, pp. 2478-2487, 2003. [R6] C.D'Elia, G.Poggi, G.Scarpa, “A tree-structured Markov random field model for bayesian image segmentation”, IEEE Transactions on Image Processing, Vol.12, pp.1259-1273, Ottobre 2003. [R7] G.Poggi, G.Scarpa, J.Zerubia, “Supervised segmentation of remote-sensing images based on a tree-structured MRF model”, IEEE Transactions on Geoscience and Remote Sensing (in stampa). [R8] M. Diani, N. Acito, G. Corsini, “Airborne threat detection in navy IRST systems”, IEE Proceedings Vision Image and Signal Processing a Ottobre 2003 (in stampa). [R9] L. Bruzzone, R. Cossu, “An Adaptive Approach for Reducing Registration Noise Effects in Unsupervised Change Detection”, IEEE Transactions on Geoscience and Remote Sensing, Vol. 41, pp. 2455-2465, 2003. [R10] L. Bruzzone, R. Cossu, G. Vernazza, “Detection of land-cover transitions by combining multidate classifiers”, Pattern Recognition Letters, Vol. 25, No. 13, 1 Ottobre 2004, pp. 1491-1500. [R11] L. Bruzzone, M. Marconcini, U. Wegmuller, A. Wiesmann, “An advanced system for the automatic classification of multitemporal SAR images”, IEEE Transactions on Geoscience and Remote Sensing, Vol. 42, No. 6, Giugno 2004, pp. 1321-1334. [R12] Y. Bazi, L. Bruzzone, F. Melgani, “An unsupervised approach based on the generalized Gaussian model to automatic change detection in multitemporal SAR images”, IEEE Transactions on Geoscience and Remote Sensing, Vol. 43, 2005 (in stampa). MIUR – Multitemporale, Rapporto Tecnico 4 8 [R13] M. Chi, L. Bruzzone, “A Semilabeled-Sample-Driven Bagging Technique for Ill-Posed Classification Problems”, IEEE Transactions on Geoscience and Remote Sensing Letters. (in stampa). Capitoli di libro [L1] B. Aiazzi, L. Alparone, S. Baronti, C. Lastri, "Near-lossless compression of remote-sensing data", in Frontiers of Remote Sensing Information Processing, editor: C. H. Chen, Singapore: World Scientific Publishing, pp. 503-532, Luglio 2003. [L2] G. Moser, F. Melgani, S. B. Serpico, "Advances in unsupervised change detection", in Frontiers of Remote Sensing Information Processing, editor: C. H. Chen, Singapore: World Scientific Publishing, pp. 405-426, Luglio 2003. [L3] L. Bruzzone and R. Cossu, “Advanced Classification Techniques: Partially Supervised Approaches”, in Frontiers of Remote Sensing Information Processing, editor: C. H. Chen, Singapore: World Scientific Publishing, Chapter 12, pp. 285-314, 2003. Pubblicazioni su conferenza [C1] L. Alparone, M. Bianchini, B. Aiazzi, S. Baronti, M. Selva, “Change detection in repeatpass multilook SAR imagery via coherence analysis”, Atti del Second IEEE International Workshop on the Analysis of Multi-temporal Remote Sensing Images, Ispra, Italia, 16-18 Luglio, 2003, World Scientific Publishing, Singapore, 2004, pp. 145-153. [C2] B. Aiazzi, L. Alparone, S. Baronti, A. Garzelli, “Coherence estimation from multilook detected SAR images”, invited paper, Atti dell’IEEE 2003 Int. Geoscience and Remote Sensing Symposium (IGARSS 2003), Tolosa, Francia, 21-25 Luglio, 2003, pp. 200-202. [C3] L. Alparone, A. Garzelli, F. Nencini, B. Aiazzi, S. Baronti, “Interband detail modeling for multiresolution fusion of very high resolution multispectral images”, Atti della SPIE Conference on Image and Signal Processing for Remote Sensing IX, Barcellona,, Spagna, 812 Settembre 2003, L. Bruzzone (Ed.), Vol. 5238, pp. 44-49, 2004. [C4] B. Aiazzi, L. Alparone, S. Baronti, M. Bianchini, A. Garzelli, M. Selva, “Information mining via coherence estimation from multi-look incoherent SAR imagery,” Proceeding 4th ESA-EUSC Conference on Image Information Mining, Madrid, Spagna, 17–19 Marzo 2004, CD-ROM Proceedings, disponibili su http://earth.esa.int/rtd/Events/ESA-EUSC- 2004/index.html. [C5] L. Alparone, L. Facheris, S. Baronti, A. Garzelli, F. Nencini, “Fusion of multispectral and SAR images by intensity modulation,” Atti della 7th International Conference on MIUR – Multitemporale, Rapporto Tecnico 4 9 Information Fusion, Stoccolma, Svezia, 28 Giugno–1 Luglio 2004, CD-ROM Proceedings, pp. 637-643. [C6] L. Alparone, G. Corsini, M. Diani, “Noise modeling and estimation in image sequences from thermal infrared cameras”, Atti della SPIE Conference on Image and Signal Processing for Remote Sensing X, Maspalomas, Gran Canaria, Spagna, 13-15 Settembre 2004 (in stampa). [C7] B. Aiazzi, L. Alparone, S. Baronti, M. Bianchini, A. Garzelli, M. Selva, “Quicklook coherence estimation from multilook SAR imagery,” SPIE European Remote Sensing Symposium, Maspalomas, Gran Canaria, Spain, 13–16 September 2004 in SAR Image Analysis, Modeling, and Techniques VII, F. Posa (ed.), Proc. SPIE Vol. 5574-B, pp. 428– 435, 2004. [C8] M. De Martino, G. Macchiavello, G. Moser, S. B. Serpico, "Partially Supervised Contextual Classification of Multitemporal Remotely Sensed Images", Atti dell’IEEE 2003 Int. Geoscience and Remote Sensing Symposium (IGARSS 2003), Tolosa, Francia, 21-25 Luglio, 2003, Vol. II, pp. 1377-1379. [C9] S. B. Serpico, M. Datcu, G. Moser, S. Mansi, P. Pecciarini, "Hybrid supervised / unsupervised multisensor fusion of remote sensing images based on hierarchical clustering", Tyrrhenian International Workshop on Remote Sensing, 15-18 Settembre 2003, Isola d’Elba, Italia, pp.17-30. [C10] G. Moser, S. B. Serpico, M. De Martino, D. Coppolino, “Automatic partially supervised classification of multitemporal remotely sensed images”, Atti della SPIE Conference on Image and Signal Processing for Remote Sensing X, Maspalomas, Gran Canaria, Spagna, 13-15 Settembre 2004 (in stampa). [C11] C. D'Elia, G. Poggi, G. Scarpa: “Improved tree-structured segmentation of remote sensing images”, Atti dell’IEEE 2003 Int. Geoscience and Remote Sensing Symposium (IGARSS 2003), Tolosa, Francia, 21-25 Luglio, 2003, Vol. 3, pp. 1805-1807. [C12] C. D'Elia, G. Poggi, G. Scarpa: “Sequential Bayesian segmentation of remote sensing images”, Atti della SPIE Conference on Image Processing, Barcellona, Spagna, 8-12 Settembre 2003, Vol. 3, pp. 985-988,. [C13] M. Cagnazzo, G. Poggi, G. Scarpa, L. Verdoliva: “Compression of multitemporal remote sensing images through Bayesian segmentation”, Atti dell’IEEE 2004 Int. Geoscience and Remote Sensing Symposium (IGARSS 2004), Anchorage, Alaska, USA, 20-24 Settembre, 2004, vol. 1, pp. 281-284. MIUR – Multitemporale, Rapporto Tecnico 4 10 [C14] L. Cicala, G. Poggi, G. Scarpa: “Supervised segmentation of remote-sensing multitemporal images based on the tree-structured Markov random field model”, Atti dell’IEEE 2004 Int. Geoscience and Remote Sensing Symposium (IGARSS 2004), Anchorage, Alaska, USA, 2024 Settembre, 2004, vol. 3, pp. 1569-1572. [C15] M. Diani, N. Acito, G. Corsini, “Dim target detection in IR maritime surveillance systems”, Atti dell’IEEE 2003 Int. Geoscience and Remote Sensing Symposium (IGARSS 2003), Tolosa, Francia, 21-25 Luglio, 2003. [C16] M. Diani, N. Acito, G. Corsini, “A new background subspace selection criterion for clutter cancellation in infrared naval surveillance systems,” Atti del 9th International Symposium on Remote Sensing, Crete, Greece, 23-27 Settembre 2002. [C17] L. Bruzzone, M. Marconcini, U. Wegmuller, A. Wiesmann, “An advanced system for automatic classification of multitemporal SAR images”, Atti del Second IEEE International Workshop on the Analysis of Multi-temporal Remote Sensing Images, Ispra, Italia, 16-18 Luglio, 2003, World Scientific Publishing, Singapore, 2004, pp. 175-185. [C18] L. Bruzzone, F. Melgani, “A data fusion approach to unsupervised change detection”, Atti dell’IEEE 2003 Int. Geoscience and Remote Sensing Symposium (IGARSS 2003), Tolosa, Francia, 21-25 Luglio, 2003, Vol. II, pp. 1374-1376. [C19] Y. Bazi, L. Bruzzone, F. Melgani, “An Approach to Unsupervised Change Detection in Multitemporal SAR Images Based on the Generalized Gaussian Distribution”, Atti dell’IEEE 2004 Int. Geoscience and Remote Sensing Symposium (IGARSS 2004), Anchorage, Alaska, USA, 20-24 Settembre, 2004, Vol. II, pp. 1402-1405. [C20] Y. Bazi, L. Bruzzone, F. Melgani, "Change Detection in Multitemporal SAR Images Based on Generalized Gaussian Distribution and EM Algorithm", Atti della SPIE Conference on Image and Signal Processing for Remote Sensing X, Maspalomas, Gran Canaria, Spagna, 13-15 Settembre 2004 (in stampa). Rapporti interni [T1] Elaborazione ed analisi di immagini telerilevate multitemporali ed ipertemporali per il monitoraggio ambientale, Rapporti tecnici I e II. [T2] N. Acito, G. Corsini, M. Diani, “Studio di tecniche per la rivelazione di oggetti in sequenze di immagini IR,” Rapporto tecnico IPERT/12/2003, Dipartimento di Ingegneria dell’Informazione, PISA, Dicembre 2003. MIUR – Multitemporale, Rapporto Tecnico 4 11 [T3] N. Acito, G. Corsini, M. Diani, G. Pennucci, “Elaborazione ed analisi di sequenze di immagini telerilevate per la rappresentazione efficiente dei dati,” Numero Protocollo 807, Dipartimento di Ingegneria dell’Informazione, PISA, Dicembre 2004. [T4] N. Acito, G. Corsini, M. Diani, G. Pennucci, “Un algoritmo per l’implementazione sequenziale della trasformata discreta di Karhunen-Loeve,” Numero Protocollo 806, Dipartimento di Ingegneria dell’Informazione, PISA, Dicembre 2004. [T5] N. Acito, G. Corsini, M. Diani, G. Pennucci, “Studio ed implementazione di una procedura per la rivelazione di anomalie in sequenze di immagini telerilevate,” Numero Protocollo 28, Dipartimento di Ingegneria dell’Informazione, PISA, Dicembre 2004. [T6] N. Acito, M. Diani, G. Pennucci, “Approccio MHT (Multistage Hypothesis Testing) alla rivelazione di anomalie in sequenze ipertemporali di immagini,” Numero di Protocollo 1797/AR, Dipartimento di Ingegneria dell’Informazione, PISA, Dicembre 2004. [T7] Elaborazione ed analisi di immagini telerilevate multitemporali ed ipertemporali per il monitoraggio ambientale, Rapporti tecnici I-IV. Pubblicazioni sottomesse [S1] B. Aiazzi, S. Baronti, M. Bianchini, A. Mori, L. Alparone, “Filtering of interferometric SAR phase images as a fuzzy matching-pursuit blind estimation,” sottomesso a EURASIP Journal of Applied Signal Processing, Special Issue on Advances in Interferometric Synthetic Aperture Radar Processing, 2005. [S2] M. Datcu, G. Moser, S. B. Serpico, "Hybrid supervised/unsupervised multisensor fusion of remote sensing images based on hierarchical clustering", sottomesso a IEEE Transactions on Geoscience and Remote Sensing. [S3] N.Acito, G. Corsini, M. Diani, G. Pennucci, “Comparative Analysis of Clutter Removal techniques over experimental IR images,” Optical Engineering. [S4] N.Acito, G. Corsini, M. Diani, G. Pennucci, “Experimental Performance Analysis of clutter removal techniques in infrared images,” sottomesso a ICIP 2005. [S5] Y. Bazi, L. Bruzzone, F. Melgani, “Image Thresholding Based on the EM Algorithm and the Generalized Gaussian Distribution”, sottomesso a IEEE Transactions on Image Processing. [S6] F. Bovolo, L. Bruzzone, “A Detail-Preserving Scale-Driven Approach to Unsupervised Change Detection in Multitemporal SAR Images”, sottomesso a IEEE Transactions on Geoscience and Remote Sensing. MIUR – Multitemporale, Rapporto Tecnico 4 12 2.3.2. Altre modalità di divulgazione Nell'ambito della riunione annuale 2004 del Gruppo Nazionale “Telecomunicazioni e Teoria dell'Informazione” (GTTI) (L’Aquila, 14-16 giugno 2004) sono state presentate le metodologie sviluppate nell'ambito del presente programma con i relativi risultati. Annoveriamo inoltre fra gli strumenti di divulgazione dell’attività svolta le pubblicazioni su rivista o per conferenza (che elenchiamo in § 1.3.1) ed il sito web http://dit.unitn.it/~rslab/COFIN2002 (non previsto nella proposta di progetto e tutt’ora in fase di completamento) presso il quale è possibile scaricare i Rapporti Tecnici ed il pacchetto software con la relativa documentazione (Allegato Tecnico). MIUR – Multitemporale, Rapporto Tecnico 4 13 3. WP2 – ANALISI DI IMMAGINI MULTITEMPORALI Unità di Ricerca coinvolte nello sviluppo del WP2: Genova, Trento, Firenze, Napoli Responsabile WP2: S. Serpico – Responsabile UR Genova Responsabile UR Trento: L. Bruzzone Responsabile UR Firenze: L. Alparone Responsabile UR Napoli: G. Poggi Nel seguito sono riportate le attività svolte durante la quarta fase del progetto dalle UR che partecipano al WP2. 3.1. Sintesi delle tecniche sviluppate e dei risultati ottenuti 3.1.1. Classificazione multitemporale parzialmente supervisionata L'attività dell'UR di Genova nell'ambito del progetto ha proseguito l'analisi delle tematiche relative all'analisi parzialmente supervisionata di dati telerilevati multitemporali, già iniziata nel contesto del progetto "Fusione di dati telerilevati per il monitoraggio ambientale" (Programma di ricerca scientifica di rilevante interesse nazionale: PRIN-COFIN 2000, Dicembre 2000/Dicembre 2002). Tale tematica di ricerca fa riferimento all'ambito operativo in cui non è disponibile informazione di realtà al suolo per tutte le date di acquisizione delle immagini componenti la sequenza in esame. In particolare, tale informazione di training si assume disponibile solo per un sotto-insieme delle date stesse. Tale approccio risulta di primario interesse nell'ottica dello sviluppo di sistemi integrati di monitoraggio ambientale mediante satelliti (o costellazioni di satelliti) che garantiscono tempi di rivisita molto brevi (es.: 12-24 ore), il che rende non realistico l'uso di tecniche di analisi completamente supervisionate (realtà al suolo disponibile a tutte le date), pur richiedendo comunque accuratezze di classificazione difficilmente ottenibili con tecniche completamente non-supervisionate (realtà al suolo non disponibile ad alcuna data). In tale ambito operativo il precedente progetto PRIN-COFIN 2000 aveva verificato la fattiobilità di utilizzo di due metodologie di analisi parzialmente supervisionata di immagini multitemporali, focalizzate sulla classificazione rispettivamente di coppie di immagini della medesima area geografica e di sequenze di immagini, composte da più di due date. L'attività del presente progetto è stata finalizzata a proseguire l'attività di ricerca su entrambe queste tematiche, MIUR – Multitemporale, Rapporto Tecnico 4 14 integrando in esse nuovi algoritmi di analisi, ottimizzandone le prestazioni ed automatizzandone (totalmente o parzialmente) i processi di elaborazione. Entrambe le tecniche sviluppate sono state integrate, nell’ambito della quarta fase di progetto, nel pacchetto software reso disponibile come prodotto del progetto stesso. I successivi sotto-paragrafi raccolgono le conclusioni raggiunte circa ciascuna di queste tematiche di ricerca. 3.1.2. Classificazione parzialmente supervisionata di coppie di immagini Il sistema sviluppato dall’UR di Genova di classificazione parzialmente supervisionata per coppie di immagini della medesima area geografica assume disponibile una mappa di realtà al suolo (usata a fini di training) solo alla prima data di acquisizione ed integra informazioni di clustering ("K-medie") con un risultato di rivelazione non supervisionata dei cambiamenti (ottenuto combinando l'approccio image differencing con il metodo di sogliatura non supervisionata di Kittler ed Illingworth) per generare: (a) una mappa di classificazione ibrida supervisionata/nonsupervisionata per la prima data di osservazione e (b) una mappa di classificazione parzialmente supervisionata per la seconda data. In particolare, tali mappe sono ottenute assegnando a ciascun cluster alla prima data un'etichetta di classe tematica (definita dalla mappa di training) e "propagando" a ciascun cluster alla seconda data le etichette di classe note dalla mappa di training per la prima data. Inoltre, il metodo identifica anche la possibile comparsa di classi "nuove", ossia di tipologie di copertura al suolo presenti alla seconda data, ma non alla prima. Il sistema proposto effettua tutte queste procedure di cluster labelling applicando criteri di classificazione Bayesiana a livello di cluster e stimando le probabilità condizionali coinvolte in tali regole di decisione in funzione delle intersezioni spaziali fra i cluster, le regioni di training per la prima data e le regioni di "cambiamento" e "non-cambiamento". Inoltre, il sistema automatizza completamente anche il processo di selezione del numero di cluster da scegliere a ciascuna data di acquisizione (problema intrinseco all'approccio di clustering "K-medie"), esprimendolo come la massimizzazione di un opportuno funzionale che rappresenta una stima della probabilità di decisione corretta a ciascuna data. Il metodo genera cioè a ciascuna data una sequenza di mappe di clustering con valori crescenti del numero di cluster e valida ciascuna soluzione di clustering calcolando il valore corrispondente del funzionale. L'intero sistema proposto di classificazione risulta quindi completamente automatico; l'interazione con un operatore è richiesta soltanto a valle del processo di elaborazione per assegnare un significato "semantico" alle etichette "simboliche" assegnate alle "classi nuove" identificate dall'algoritmo, non disponendo per queste classi di alcuna informazione a priori. Il sistema include inoltre un modulo di pre-elaborazione dei dati (funzionale all'uso di image differencing in fase di MIUR – Multitemporale, Rapporto Tecnico 4 15 change detection) finalizzato ad identificare e rimuovere eventuali coperture nuvolose presenti nelle bande ottiche ad una delle due date (e non all'altra) ed a ridurre eventuali differenze nella dinamica delle bande stesse alle due date. La sperimentazione del sistema, effettuata su un data set multitemporale e multisensore (Landsat-5 TM ed ERS-1 SAR), caratterizzato dalla presenza di tipologie di copertura al suolo con elevata sovrapposizione nello spazio delle feature (es.: "suolo nudo", "cereali" e "mais") ha evidenziato come il metodo ottenga, ad entrambe le date di acquisizione, valori elevati di accuratezza complessiva di classificazione sul test set (overall accuracy, OA: 92.03% per la prima data e 91.11% per la seconda). In particolare, l'andamento dei funzionali proposti per l'ottimizzazione del numero K di cluster a ciascuna data in funzione di K si è rivelato, ad entrambe le date, fortemente correlato con l'andamento dell'accuratezza OA ottenuta sul test set, il che suggerisce una buona efficacia di tali funzionali nel ruolo di stimatori della probabilità di decisione corretta. Ciò è ulteriormente confermato dal fatto che, sul data set in esame, per ciascuna data, i massimi globali di OA e del funzionale proposto sono stati ottenuti in corrispondenza del medesimo valore di K: selezionando quindi la soluzione di clustering corrispondente al massimo valore del funzionale ha quindi permesso di identificare, su tale data set, il risultato di classificazione caratterizzato dal massimo valore di OA. Si può tuttavia osservare che, malgrado tali valori elevati di OA, per le classi spettralmente più sovrapposte il sistema può comunque fornire accuratezze piuttosto basse. Ciò è coerente col fatto che la scelta del numero di cluster è guidata dalla massimizzazione di uno stimatore di probabilità di decisione corretta, che risulta quindi implicitamente connesso con OA. Per mitigare tale criticità del sistema, l'uso di funzionali modificati, legati non ad OA, ma all'accuratezza media di classificazione (average accuracy, AA) o all'accuratezza minima sulle singole classi può essere presa in considerazione. Inoltre, il modulo di pre-elaborazione per rimozione di nuvole e miglioramento della dinamica, applicato sia sul data set sopra-citato sia su alcune sue versioni artificialmente modificate (per focalizzare l'attenzione sul problema della presenza di nuvole e di differenze nella dinamica alle due date), si è rivelato efficace, identificando correttamente le aree nuvolose e riducendo fortemente il root mean square error (RMSE) fra le aree di "non-nuvola" alle due date. La sperimentazione ha anche coinvolto l'opportunità di modificare il sistema, introducendo in esso: (a) l'uso della versione multi-soglia del metodo di Kittler ed Illingworth; (b) l'uso di distanza di Mahalanobis al posto dell'usuale metrica euclidea adottata implicitamente dall'approccio image differencing; (c) l'adozione del metodo di clustering ISODATA al posto di "K-medie". Le modifiche (a) e (b) all'architettura del sistema hanno consentito di ottenere leggeri miglioramenti di MIUR – Multitemporale, Rapporto Tecnico 4 16 accuratezza di classificazione, pur a discapito di un incremento del tempo di calcolo. L'approccio multi-soglia, in particolare, consente di prendere in considerazione la possibile presenza di più tipologie distinte di cambiamento all'interno di ciascun cluster e permette di ottenere un leggero incremento di accuratezza, anche se la ricerca esaustiva di un insieme di soglie ottime (e non di una singola soglia) effettuata dalla versione multi-soglia della tecnica di Kittler ed Illingworth coinvolge lunghi tempi di elaborazione. L'uso della distanza di Mahalanobis in fase di change detection è finalizzato a migliorare la mappa dei cambiamenti, sfruttando l'informazione legata alla distribuzione dei campioni di ciascun cluster nello spazio delle feature. La massima accuratezza raggiungibile in tal modo si rivela leggermente superiore rispetto a quella ottenibile con metrica euclidea, pur ottenendosi una correlazione meno forte fra gli andamenti di OA e del funzionale proposto di ottimizzazione del numero di cluster alla seconda data. Infine, l'uso nel sistema sviluppato di ISODATA permette di effettuare l'ottimizzazione del numero di cluster anche senza l'introduzione di funzionali di validazione e senza la generazione di sequenze di mappe di clustering, il che consente di ottenere una riduzione del tempo di calcolo complessivo (senza significative variazioni di accuratezza). Tuttavia, ISODATA presenta ulteriori parametri interni (es.: parametri di split e merge) che vanno configurati manualmente prima dell'applicazione del metodo, il che coinvolge quindi un'ulteriore interazione con l'utente. L'uso dei funzionali proposti per automatizzare tale procedura risulta infatti poco vantaggioso rispetto al caso di "K-medie" perchè richiede di generare nuovamente una differente mappa di clustering per ciascuna configurazione dei parametri (opportunamente discretizzati): se quindi, nel caso di "K-medie", il problema di selezione di una soluzione di clustering ottima era esprimibile come la massimizzazione di un funzionale del solo parametro (scalare) K, nel caso di ISODATA, il problema si tradurrebbe nella massimizzazione di un funzionale definito sullo spazio multi-dimensionale dei parametri interni del metodo, il che introdurrebbe un significativo incremento del tempo di calcolo. 3.1.3. Classificazione contestuale parzialmente supervisionata per sequenze di immagini La seconda tematica affrontata dall'UR di Genova nell'ambito dell'attività di progetto ha riguardato l'analisi parzialmente supervisionata di sequenze di immagini mediante tecniche contestuali basate su Markov Random Field (MRF). In particolare, il modello MRF mutuo precedentemente sviluppato per classificazione multitemporale supervisionata è stato esteso qui al contesto parzialmente supervisionato mediante integrazione con il metodo di clustering ISODATA. Il modello, nello specifico, formalizza sia l'informazione spettrale (associata ai livelli di grigio di ciascun pixel nelle varie bande di acquisizione) sia le informazioni di contesto spaziale (associata alla correlazione fra pixel adiacenti nella stessa immagine) e temporale (associata alla correlazione MIUR – Multitemporale, Rapporto Tecnico 4 17 fra immagini acquisite a date diverse sulle medesima area geografica) mediante funzioni-energia, pesate da opportuni coefficienti. L'algoritmo di classificazione ottenuto applicando a tale modello MRF l'approccio Iterated Conditional Mode (ICM) alla classificazione MAP contestuale è stato poi automatizzato, sviluppando uno specifico algoritmo di ottimizzazione dei valori dei parametri interni del modello (ossia i sopra-citati pesi delle funzioni-energia). Tale algoritmo è applicabile ad una vasta categoria di modelli MRF ed esprime il problema della selezione di valori opportuni per i parametri del modello in termini di un problema di soluzione di un sistema lineare di disuguaglianze, risolto estendendo a tale contesto la tecnica di Ho-Kashyap (originariamente proposta per problemi di calcolo ottimo di funzioni discriminanti lineari per classificazione binaria). In primo luogo, per focalizzarsi sul problema dell'ottimizzazione dei parametri del modello, una sperimentazione preliminare del metodo di ottimizzazione proposto è stata effettuata in un contesto operativo completamente supervisionato su una sequenza di tre immagini SAR polarimetriche e multi-frequenza (SIR-C/XSAR) della medesima area geografica. La tecnica di ottimizzazione sviluppata si è rivelata, in tale esperimento, molto efficace, fornendo valori dei parametri del modello MRF che permettono di generare mappe di classificazione molto accurate (OA > 97%) per tutte le tre date di acquisizione (malgrado l'assenza di fasi preliminari di despeckle sui dati SAR in ingresso). In particolare, le accuratezze ottenute con i parametri forniti dal metodo proposto si rivelano molto simili a quelle ottenibili mediante ricerca esaustiva (a griglia) nello spazio dei parametri. La sperimentazione è stata poi focalizzata sul contesto parzialmente supervisionato, operando su una sequenza di tre immagini ottiche (aquisite da Landsat-5 TM e da Landsat-7 ETM+) con realtà al suolo disponibile solo alla prima data. Il modello MRF parzialmente supervisionato proposto, combinato con l'algoritmo di ottimizzazione dei parametri ed inizializzato con i risultati di clustering forniti da ISODATA fornisce mappe di classificazione con buoni valori di accuratezza (OA > 86%), anche alle date di acquisizione prive di realtà al suolo. Nello specifico, il metodo genera una sequenza di mappe di clustering contestuale multitemporale, a partire dalle quali è possibile generare corrispondenti mappe di classificazione mediante una procedura di cluster labelling (cfr. paragrafo precedente). Con riferimento alle date prive di realtà al suolo, tale procedura è stata effettuata nel presente progetto mediante analisi foto-interpretativa delle mappe di clustering stesse: una sua automatizzazione rappresenta un interessante sviluppo ulteriore di tale attività di ricerca (cfr. paragrafo 3.1.2). Inoltre, l'introduzione del modello contestuale consente un significativo incremento di accuratezza per tutte le tre date (risultato atteso). Ci si aspetta inoltre un MIUR – Multitemporale, Rapporto Tecnico 4 18 incremento maggiore in caso di uso di sequenze più lunghe di immagini, potendo il metodo sfruttare efficacemente l’informazione contestuale temporale associata all’intera sequenza. 3.1.4. Segmentazione di imamgni multitemporali (propedeutica alla compressione) Nel corso della ricerca, l’UR di Napoli ha sviluppato una tecnica per la segmentazione supervisionata di immagini multitemporali. L’approccio seguito è quello statistico Bayesiano: la mappa di segmentazione X è modellata come campo aleatorio, così come i dati (multitemporali) osservati Y, e la mappa stimata è quella che ha la massima probabilità a posteriori (MAP): x̂ = arg max p(x|y) = arg max p(y|x)p(x) Per i dati osservati si assume l’indipendenza condizionale data la classe di appartenenza e, in mancanza di informazioni contrastanti, una distribuzione gaussiana multivariata. Per la mappa di segmentazione si assume invece un modello di tipo MRF (Markov random field) poiché questo permette di portare in conto le dipendenze statistiche tra pixel vicini e, più in generali, in tutta l’immagine. La principale innovazione della tecnica proposta rispetto a quelle esistenti in letteratura consiste nell’uso di un modello MRF con struttura ad albero, nel quale si associa ogni classe con un nodo terminale di un albero binario, mentre i nodi intermedi rappresentano gruppi di classi, legati tipicamente da caratteristiche spettrali, spaziali o da relazioni semantiche. Di conseguenza la segmentazione avviene attraverso una sequenza di decisioni, associate ai nodi interni dell’albero a partire dalla radice, che segmentano ogni volta la regione in esame in due nuove regioni, che sono poi a loro volta segmentate ricorsivamente fino a raggiungere i nodi terminali. Questo approccio presenta diversi importanti vantaggi rispetto a quello “piatto”, ad esempio: • si possono usare modelli diversi per descrivere diverse strutture spaziali o spettrali; • i parametri delle diverse regioni sono stimati localmente, sui dati di interesse; • la segmentazione è molto più veloce perchè avviene come sequenza di split binari; • la struttura dell’albero racchiude essa stessa informazioni sintetiche sulla semantica dell’immagine. L’algoritmo originario, sviluppato per il caso non supervisionato, viene modificato nel caso supervisionato portando in conto le informazioni a priori sul numero di classi presenti e le statistiche dei dati osservati per ogni classe. Questo permette di costruire a priori un albero di classificazione (attraverso l’intervento dell’operatore in questa fase della ricerca) ed elimina i notevoli problemi legati alla stima di questi parametri. La definizione dell’albero consente tra l’altro MIUR – Multitemporale, Rapporto Tecnico 4 19 di adattare il problema di segmentazione alla specifica natura delle immagini trattate: nel caso delle immagini multitemporali, è stato definito un albero composto idealmente da due livelli, il primo corrispondente alle classi presenti nella sola prima istanza temporale, il secondo che tiene conto delle ulteriori ramificazioni dovute ai cambiamenti di copertura intercorsi in aree prima omogenee. In tal modo l’albero offre una immediata lettura dell’evoluzione temporale delle immagini. Una volta effettuata la scelta della struttura restano ancora notevoli gradi di liberta nell’algoritmo, legati alla possibilità di scegliere un diverso modello MRF per ogni nodo, ad esempio sulla base delle caratteristiche spettrali delle classi coinvolte oppure, dopo una segmentazione preliminare di tentativo, su quelle spaziali o ancora in base al significato delle classi stesse. A valle di queste scelte di progetto bisogna poi risolvere, naturalmente, i problemi di stima dei parametri del modello MRF prescelto, che qui avviene a massima verosimiglianza, e l’ottimizzazione della funzione obiettivo della stima, cioè la determinazione della mappa di segmentazione stessa, che viene condotta attraverso l’algoritmo ICM (Iterated conditional modes). L’applicazione della tecnica sviluppata per la segmentazione di immagini multitemporali di prova ha fornito risultati molto incoraggianti. La percentuale di corretta classificazione, misurata su un test di validazione, risulta in generale superiore a quella dei più comuni algoritmi di riferimento (minima distanza e massima verosimiglianza), così come altre comuni misure di prestazioni estratte dalla matrice di confusione dei dati. Inoltre l’albero associato alla mappa di segmentazione consente un’immediata visione d’insieme delle variazioni temporali della copertura del suolo e può quindi rappresentare un aiuto all’interpretazione dei dati. Infine, grazie alla natura gerarchica della segmentazione e ad alcune opportune scelte di progetto, i tempi di elaborazione sono molto contenuti rispetto ad altre tecniche basate su MRF, cosa non trascurabile per l’uso con grandi database o per analisi ripetute dei dati. 3.1.5. Rivelazione non-supervisionata dei cambiamenti Il primo obiettivo dell’UR di Trento, sul piano metodologico, ha riguardato lo sviluppo di tecniche di rivelazione dei cambiamenti non supervisionate in grado di individuare l’eventuale presenza di cambiamenti verificatisi al suolo senza alcun ausilio di informazioni a priori sull’area di interesse. Tale tipo di approccio evita di dover svolgere l’oneroso, e talvolta irrelizzabile, processo di raccolata di verità a terra. Le tipologie di tecniche non-supervisionate sviluppate nell’ambito di questo progetto si basano sull’analisi statistica dell’immagine differenza (nel caso di elaborazione di dati multispettrali) e dell’immagine rapporto (nel caso di elaborazione di dati SAR). Tali immagini vengono entrambe calcolate sulla base di un confronto pixel a pixel di due immagini georeferenziate e corregistrate acquisite sulla stessa area geografica in date differenti. L’aspetto più MIUR – Multitemporale, Rapporto Tecnico 4 20 critico di tali tecniche è l’individuazione della soglia di decisione che separa la classe di cambiamento da quella di non cambiamento. Tale problema è stato affrontato adattando regole di decisione statistica classiche (minimo errore, minimo rischio e Neyman-Pearson) al problema della rivelazione dei cambiamenti. L’applicazione di tali metodologie richiede la conoscenza delle distribuzioni statistiche associate alle classi di cambiamento e non cambiamento. Le informazioni richieste sono state ottenute utilizzando l’algoritmo di Expectaion-Maximization per la stima di parametri in problemi a dati incompleti, adottando di volta in volta il modello in grado di approssimare al meglio i dati analizzati. In particolare l’analisi svolta ha dimostrato che l’andamento delle classi di cambiamento e non cambiamento nel caso di dati acquisiti da sensori passivi è ben approssimabile con una distribuzione Gaussiana, mentre i dati di tipo radar sono meglio approssimati se si adotta un modello di tipo Gaussiana Generalizzata. Le distribuzioni di dati più complessi richiedono l’adozione di modelli più flessibile come quello di mixutre di Gaussiane. Le tecniche di decisione sviluppate nell’ambito del progetto sono quindi state applicate ai risultati ottenuti dal blocco di stima. Ciascuna tecnica si è dimostrata particolarmente efficacie nel soddisfare gli obiettivi per cui è stata sviluppata, così come ampiamente documentato nel rapporto tecnico 3 § 2.1. Tuttavia, per irrobustire il processo di change detection ed incrementarne l’accuratezza, ci si è posti l’obiettivo di sviluppare tecniche di fusione in grado di sfruttare al meglio la molteplicità delle informazioni contenute nei dati telerilevati. In particolare sono state sviluppate tecniche in grado di combinare l’informazione proveniente da diverse sorgenti informative quali immagini acquisite in bande diverse, da sensori di diverso tipo o altre tipologie di dati. Sono stati quindi realizzati i moduli di combinazione basati sulla regola di maggioranza e di media byesiana. L’applicazione di tali tecniche ad un insieme di dati multispettrali, dove le diverse sorgenti informative sono rappresentate dai diversi canali spettrali, ha dimostrato che è possibile ridurre gli errori commessi dal processo di change detection (cfr. rapporto tecnico 3, § 2.2.4.2). Un ulteriore incremento delle prestazioni delle tecniche proposte è stato ottenuto introducendo nel processo l’informazione di contesto spaziale. Particolare accento va posto sulle tecniche appositamente studiate per l’analisi delle immagini radar. In questo caso, oltre agli approcci basati sulla stima esplicita dei parametri statistici delle classi di cambiamento e non cambiamento, è stato sviluppato anche un modulo basato sul criterio di Kittler & Illingworth che perviene alla definizione della soglia di decisione sulla base di una stima implicita di tali quantità. In entrambi i casi è stato osservato come le metodologie automatiche proposte siano in grado di definire una soglia di decisione molto vicina a quella definita in modo ottimo manuale. Tale verifica è stata realizzata sulla base della verità a terra disponibile in fase di sperimentazione. MIUR – Multitemporale, Rapporto Tecnico 4 21 3.1.6. Rivelazione dei cambiamenti e della loro tipologia mediante tecniche parzialmente supervisionate Il secondo obiettivo dell’UR di Trento prevedeva lo sviluppo di tecniche di rivelazione dei cambiamenti e della loro tipologia mediante un approccio parzialmente supervisionato. L’esplicita richiesta di identificare la tipologia di cambiamento avvenuta al suolo, impone di dove integrare la conoscenza a priori sull’area di studio nel processo di analisi delle immagini multitemporali. Tuttavia, non è realistico pensare di poter affrontare il problema tramite approcci di classificazione supervisionata applicati a tutte le immagini disponibili, poiché diventa troppo oneroso da un punto di vista economico e pratico realizzare campagne di raccolta dati per tutte le date di acquisizione. È stata quindi adottata una metodologia parzialmente supervisionata che assume di disporre di informazione di verità a terra solamente ad una delle date considerate. Tale informazione è stata quindi utilizzata per addestrare in maniera congiunta i classificatori associati alle due immagini multitemporali. I classificatori adottati sono stati due: uno parametrico di tipo maximum likelihood e uno non parametrico basato su rete neurale di tipo radial basis function. Entrambe le metodologie proposte si sono dimostrate efficaci permettendo di ottenere accuratezze di classificazione superiori all’85% sia per quel che riguarda l’accuratezza di transizione da una classe all’altra. Tuttavia, tali sistemi risultano essere intrinsecamente meno accurati e robusti rispetto ai corrispondenti sistemi supervisionati. Per ovviare a questa limitazione, in linea con quanto dichiarato in fase di proposta, è stato sviluppato un insieme di classificatori multipli costituito dai due classificatori menzionati precedentemente e da due classificatori ibridi ottenuti dai precedenti tramite un opportuno scambio di parametri statistici. Il blocco di combinazione fonde le uscite dei diversi classificatori che compongono il sistema tramite approcci di media byesiana e maggioranza, al fine di sfruttare in maniera sinergica le peculiarità e la complementarietà di ciascun classificatore. La sperimentazione ha messo in evidenza che il sistema di classificazione multiplo è in grado di soddisfare le attese. Infatti, l’accuratezza congiunta sul data set considerato è superiore al 90% per entrambi i metodi di combinazione. 3.2. Sviluppi futuri 3.2.1. Classificazione multitemporale di immagini e rivelazione dei cambiamenti L'analisi sperimentale condotta con riferimento al sistema proposto dall’UR di Genova di analisi multitemporale per coppie di immagini ha evidenziato l'efficacia del metodo nel generare mappe con valori elevati di accuratezza complessiva OA, anche se talora con valori più bassi di accuratezza su classi caratterizzate da forti sovrapposizioni spettrali. Tale risultato suggerisce MIUR – Multitemporale, Rapporto Tecnico 4 22 l'opportunità di un'ulteriore generalizzazione del metodo mediante l'integrazione in esso di funzionali differenti per la validazione delle soluzioni di clustering basati non su una stima della probabilità di decisione corretta (implicitamente legata ad OA) bensì sull'accuratezza media o sulla minima accuratezza per classe. Ciò potrebbe consentire di migliorare le prestazioni di classificazione ottenute anche sulle classi più sovrapposte, generando quindi mappe di classificazione più accurate. Inoltre, la versione attuale del sistema è stata basata sull'uso del metodo di clustering "Kmedie" (ed eventualmente su una sua sostituzione con ISODATA). Si ritiene di interesse verificare l'integrabilità nel sistema stesso di strategie di clustering più sofisticate, ad esempio basate su algoritmi di stima parametrica quali Expectation-Maximization (EM) (Redner et al., 1984) o Stochastic Expectation-Maximization (SEM) (Celeux et al., 1995) (Moser et al., 2004) oppure basate su modelli contestuali (Baraldi et al., 2000) (Dubes et al., 1989). In particolare, con riferimento all'uso di clustering contestuale, si rivela quindi interessante verificare l'integrabilità delle due strategie di analisi multitemporale sviluppate nell'ambito del progetto, estendendo opportunamente gli algoritmi proposti di ottimizzazione del numero di cluster e di propagazione delle etichette anche all'analisi di sequenze di immagini e combinandole con il modello MRF multitemporale sviluppato e con il corrispondente metodo di ottimizzazione dei parametri. Ciò consentirebbe lo sviluppo di un sistema completo di analisi parzialmente supervisionata di sequenze di immagini telerilevate che coniugherebbe la completa automatizzazione che caratterizza il primo dei due metodi sviluppati con lo sfruttamento efficace dell'informazione contestuale che caratterizza il secondo metodo. Per tale sistema integrato si riterrebbe molto interessante una campagna estensiva di sperimentazione non solo sulle sequenze di tre immagini citate nei paragrafi precedenti ma anche su sequenze di immagini più lunghe di quelle finora impiegate. 3.2.2. Segmentazione di imamgni multitemporali (propedeutica alla compressione) Sebbene la tecnica proposta dall’UR di Napoli abbia già fornito dei risultati interessanti, lo sviluppo è ancora in una fase iniziale e ci sono certamente ampi margini di miglioramento, anche legati a modifiche banali nei vari passi di elaborazione che non sono state ancora implementate solo per motivi di tempo. Fra queste vanno senz’altro annoverate la tecnica di stima dei parametri, che qui avviene in modo abbastanza elementare a massima verosimiglianza e che potrebbe invece avvalersi di algoritmi più sofisticati come l’Expectation-Maximization, ormai ampiamente diffusi per problemi di questo tipo. Inoltre, a patto di sacrificare qualcosa sul versante dei tempi di elaborazione, si potrebbe sostituire all’ICM un algoritmo più affidabile per la ricerca della mappa di segmentazione ottima, come il simulated annealing. Anche dal punto di vista del modello dei dati, il MIUR – Multitemporale, Rapporto Tecnico 4 23 modello gaussiano potrebbe essere banalmente sostituito da modelli di maggiore generalità, ad esempio quello gaussiano generalizzato, che potrebbero ulteriormente migliorare la qualità di segmentazione a patto di riuscire a stimarne correttamente i parametri. Modifiche più significative coinvolgono invece gli aspetti più alti della modellistica. Un interessante aspetto da approfondire è la scelta automatica dell’albero di classificazione che meglio si adatta al problema in esame ed alle informazioni a priori (o anche a posteriori) disponibili sull’immagine. Esperimenti preliminari hanno mostrato che tale scelta può avere effetti non trascurabili sulla segmentazione finale. C’è poi un importante grado di libertà da sfruttare che riguarda la scelta dei modelli MRF ai nodi dell’albero. Finora si è lavorato esclusivamente con il modello di Potts, il più semplice, caratterizzato da un solo parametro, ma sono stati sviluppati modelli più raffinati, adatti a problemi particolari, che potrebbero essere sostituiti al Potts, anche dinamicamente, in funzione delle statistiche locali o del significato delle classi. Anche in questo caso, tuttavia, va accuratamente valutato l’aumento di complessità di elaborazione e di stima che potrebbe derivare da scelte di questo tipo. 3.2.3. Tecniche di rivelazione dei cambaimenti non supervisionate e parzialmente supervisionate Entrambi gli obiettivi perseguiti nell’ambito di questo progetto dall’UR di Trento risultano essere di importanza strategica per lo sviluppo di applicazioni reali dell’analisi di immagine telerilavate multitemporali. La parziale o mancante disponibilità di informazioni di verità a terra rende le tecniche proposte particolarmente adatte ad essere impiegate in situazioni operative laddove realizzare campagne di acquisizione dati risulta essere troppo oneroso in termini di tempo e costi o particolarmente difficoltosa a causa della topografia del terreno. Tale tipologia di applicazioni è in continuo aumento grazie alla crescente frequenza con cui i dati telerilevati vengono acquisiti e alla necessità e capacità di elaborarli in tempi sempre più brevi. In questa ottica l’UR di Trento ritiene sia di particolare interesse approfondire ulteriormente le metodologie di rivelazione dei cambiamenti non supervisionate e parzialmente supervisionate proposte al fine di incrementarne la flessibilità rispetto alle possibili applicazioni reali. Per quanto concerne le tecniche di rivelazione dei cambiamenti non supervisionate sviluppate nell’ambito di questo progetto, si intende estenderle affinché siano in grado di individuare la presenza di cambiamenti multipli nella zona di interesse, ovvero di più soglie di decisione. Tale ottimizzazione renderebbe le metodologie proposte più flessibili rispetto a situazioni applicative reali, dove è facile che si verifichino cambiamenti multipli. In secondo luogo, l’UR di Trento prevede di irrobustire ulteriormente il processo di rivelazione dei cambiamenti perzialmente MIUR – Multitemporale, Rapporto Tecnico 4 24 supervisionato sviluppando altre tecniche di classificazione compund in grado di gestire la complessità delle distribuzioni statistiche di diverse tipologie di dati. Infine, un ultimo obiettivo dell’UR di Trento è quello di sperimentare tutto il pacchetto software sviluppato in diverse situazioni operative caratterizzate dalla presenza di cambiamenti associati a diversi fenomeni. 3.3. Bibliografia [A.1] Baraldi, A., Blonda, P., Parmiggiani, F., Satalino, G.: 2000, "Contextual clustering for image segmentation", Optical Engineering, vol. 39, no. 4, pp. 907-923. [A.2] Celeux, G., Chauveau D., Diebolt, J.: 1995, “On stochastic versions of the EM algorithm”, INRIA Research Report no. 2514. [A.3] Dubes, R. C., Jain, A. K.: 1989, "Random field models in image analysis", J. Appl. Stat., vol. 16, pp. 131–163. [A.4] Moser, G., Zerubia, J., Serpico, S. B.: 2004, “Dictionary-based Stochastic ExpectationMaximization for SAR amplitude probability density function estimation”, INRIA Research Report no. 5154. [A.5] Redner, R. A., Walker, H. F.: 1984, “Mixture densities, maximum likelihood, and the EM algorithm”, SIAM Review, vol. 26, no. 2, pp. 195-239. MIUR – Multitemporale, Rapporto Tecnico 4 25 4. WP3 – ANALISI DI IMMAGINI IPERTEMPORALI Unità di Ricerca coinvolte nello sviluppo del WP3: Pisa, Firenze Responsabile WP3: L. Alparone – Responsabile UR Firenze Responsabile UR Pisa: M. Diani L’argomento affrontato nel WP3 riguarda lo studio di tecniche per elaborazione di sequenze d’immagini telerilevate ipertemporali. Le immagini sono state acquisite con una frequenza di campionamento temporale molto elevata. Tra le possibili applicazioni nel campo del monitoraggio ambientale, è di particolare interesse la sorveglianza di vaste zone finalizzata alla rivelazione dell’insorgere di anomalie. Con il termine "anomalia" s’intende una regione nell'immagine, di solito di piccole dimensioni, in cui si manifesta un cambiamento delle caratteristiche del segnale. Tale anomalia può rappresentare l'insorgere di un fenomeno legato ad un rischio ambientale, ad esempio un focolaio d'incendio. Le Unità di Ricerca che si sono interessate a questo WP sono quella di Pisa e quella di Firenze. In particolare, l’unità di ricerca di Pisa si è occupata dello studio di tecniche per la rappresentazione efficiente dei dati ipertemporali e dell’analisi di nuovi algoritmi per la rivelazione dei fenomeni da monitorare; inoltre, in qualità di responsabile del WP3, ha curato l’attività di coordinamento delle due sedi coinvolte. L’Unità di Ricerca di Firenze, invece, si è occupata della modellazione statistica dei dati ipertemporali acquisiti da termocamera. In particolare, sono stati studiati modelli statistici del primo e secondo ordine atti a descrivere i fenomeni di disturbo presenti in sequenze di immagini termiche: funzioni densità di probabilità dell’ampiezza (PDF) capaci di rappresentare disturbi a statistica non gaussiana (“heavy-tailed distribution”) e funzioni di covarianza spaziali e temporali. Il lavoro svolto da ciascun gruppo si è articolato in quattro fasi fondamentali, ciascuna delle quali è stata documentata con relazioni tecniche: PRIMA FASE (4 mesi). Questa fase è stata dedicata al coordinamento iniziale con le unità che fanno parte del progetto (Trento, Genova, Firenze e Napoli) e allo studio dello stato dell’arte mirato alla definizione delle problematiche delle metodologie da affrontare e dei possibili algoritmi da sviluppare. SECONDA FASE (8 mesi). Questa fase è stata dedicata ad un’analisi teorica specifica per la messa a punto degli algoritmi. TERZA FASE (6 mesi). MIUR – Multitemporale, Rapporto Tecnico 4 26 In questa fase abbiamo ultimato ed aggiornato gli algoritmi che sono stati inseriti in una piattaforma software, progettata dall’UR di Trento. Tale piattaforma sarà messa a disposizione in rete. Oggetto di questa fase è stata, inoltre, la creazione e l’organizzazione di un data set (dati reali e/o simulati) per l’analisi sperimentale delle prestazioni degli algoritmi. I dati sono stati acquisiti con termocamera CEDIP, messa a disposizione dalla Divisione Elettroottica del C.I.S.A.M. (Centro Interforze Studi Applicazioni Militari) che ringraziamo per la preziosa collaborazione. QUARTA FASE (6 mesi). La quarta ed ultima fase, che documenteremo in questo report, è stata dedicata alla sintesi delle tecniche sviluppate e all’analizzati dei nuovi risultati sperimentali. 4.1. Sintesi delle tecniche sviluppate e dei risultati ottenuti Nell’ambito dei temi d’interesse del WP3, le Unità di ricerca interessate sono quelle di Pisa e di Firenze. L’UR di Pisa si è occupata delle seguenti problematiche legate all’elaborazione di sequenze d’immagini telerilevate ipertemporali: 1) Studio di tecniche per la rappresentazione efficiente dei dati; 2) Studio di tecniche per la rivelazione di anomalie termiche. L’UR di Firenze invece si è occupata dello: 3) Studio di tecniche per stimare i disturbi in sequenze di immagini. Per quel che riguarda il punto 1), sono state studiate tecniche per la riduzione della complessità dei dati. L'acquisizione di sequenze ipertemporali d’immagini è caratterizzata da un flusso di dati estremamente elevato che rende molto difficile l'elaborazione degli stessi in tempo reale. Pertanto, la fase di rivelazione vera e propria è stata preceduta da una fase di analisi mirata alla diminuzione della quantità di dati da elaborare. Tale diminuzione è gradita anche perché molte delle tecniche di rivelazione che abbiamo utilizzato si basano sulla stima dei parametri statistici che caratterizzano il bersaglio e lo sfondo. Tali stime possono risultare inadeguate quando il numero di dati con cui stimare i parametri non è sufficientemente grande; conseguentemente gli algoritmi che ne fanno uso perdono molta della loro efficacia. Per questi motivi, la riduzione della dimensionalità dei dati, comporta un miglioramento degli algoritmi di rivelazione che risultano avere, non solo una maggiore efficienza computazionale, ma anche migliori prestazioni. Per la risoluzione di questa problematica abbiamo sviluppato una tecnica computazionalmente efficiente che calcola, in modo iterativo, la trasformata di Karhunen-Loeve (KLT) [B.1]. Si ricorda che tale metodologia permette di rappresentare la sequenza di frame mediante proiezione su un sottospazio vettoriale di dimensioni ridotte, limitando in modo consistente la complessità di calcolo degli algoritmi per la MIUR – Multitemporale, Rapporto Tecnico 4 27 rivelazione, il riconoscimento ed il tracciamento di anomalie. Oltre che per la riduzione della complessità dei dati, l’algoritmo KLT si è dimostrato utile anche per la sima del rumore e la rimozione del clutter. Questa analisi, infatti, può essere facilmente eseguita sfruttando il fatto che, quando la termocamera è fissa, i contributi di sfondo e rumore possono essere rimappati su un sottospazio vettoriale ortogonale a quello in cui giace il segnale utile (anomalia in movimento) e quindi possono essere facilmente rimossi. Per quanto riguarda il punto 2), invece, è stata studiata ed implementata una tecnica per la rivelazione di anomalie all'interno della scena monitorata. Infatti, nelle situazioni di maggiore interesse pratico, il fenomeno di interesse (segnale utile) non è noto a-priori. Pertanto, per rivelarlo, si è dovuto fare affidamento sulla conoscenza delle caratteristiche dello sfondo. L’algoritmo definito dall’Unità di Ricerca di Pisa è efficiente dal punto di vista computazionale e, conseguentemente, adatto per essere utilizzato in un sistema di videosorveglianza. Tale sistema di rivelazione può trovare applicazione in diversi campi come il monitoraggio ambientale, la sorveglianza di aree industriali, la rivelazione di anomalie su uno sfondo strutturato. L’Unità di Firenze si è occupata della modellazione statistica dei dati ipertemporali acquisiti da termocamera. In particolare sono stati investigati modelli statistici del primo e secondo ordine atti a descrivere i fenomeni di disturbo presenti in sequenze d’immagini termiche: funzioni densità di probabilità dell’ampiezza (PDF) capaci di rappresentare disturbi a statistica non gaussiana (“heavy-tailed distribution”) e funzioni di covarianza spaziali e temporali. Sulla base dei risultati ottenuti, l’UR di Firenze ha definito una procedura automatica per stimare i disturbi in sequenze d’immagini. Per ciascun quadro della sequenza vengono prodotti i coefficienti di correlazione (CC) del rumore “along-track” e “across-track”, la varianza e la distribuzione empirica dei valori di rumore, nonché il corrispondente modello di PDF gaussiana generalizzata. Tali parametri permettono di validare il presunto modello di statistiche spaziali tempo invarianti. Infine, vengono misurati i CC del rumore tra coppie di quadri della sequenza a distanza temporale variabile, in modo da ricostruire la matrice di covarianza temporale del rumore (in ipotesi di ergodicità). Tale procedura è stata collaudata su sequenze video standard e preliminarmente i singoli moduli sono stati validati su immagini fisse affette da rumore simulato. 4.1.1. Tecniche per la rappresentazione efficiente dei dati e la rivelazione di anomalie Nel paragrafo che segue sintetizzeremo brevemente le tecniche individuate in merito al punto 2) e riporteremo i risultati sperimentali ottenuti sulle sequenze acquisite. Una delle problematiche per rivelazione di anomalie di piccole dimensioni è che, tipicamente, sono caratterizzate da basso SCR, del quale ricordiamo la definizione sulla base del seguente modello di segnale ricevuto: MIUR – Multitemporale, Rapporto Tecnico 4 28 y (i, j, k) = a ⋅ g (i, j ) + ηb (i, j , k ) + σ b (i, j , k )n(i, j , k ) (4.1) con g(i, j) abbiamo indicato la forma del bersaglio. Il modello dello sfondo utilizzato si basa su una ipotesi largamente accertata [B.2],[B.3],[B.4] che considera il background come un processo casuale gaussiano con valor medio e varianza variabili: ηb (i, j , k ) e σ b (i, j , k ) , mentre n(i, j , k ) è un processo casuale gaussiano bianco [B.2],[B.5] con valor medio nullo e deviazione standard unitaria. Sulla base del modello proposto in (4.1), abbiamo definito il Rapporto Segnale Clutter (SCR – Signal Clutter Ratio) come il rapporto tra l’energia del segnale utile a ⋅ g (i, j ) e la potenza del rumore di sfondo. Tipicamente, tale rapporto è espresso in dB: SCR = 20 log10 ( a ) σb (4.2) Lo studio condotto dall’UR di Pisa, in merito all’individuazione di anomalie in sequenze di immagini telerilevate ipertemporali, è stato suddiviso in due fasi: rimozione dello sfondo e rivelazione. L’individuazione di tecniche di rimozione del clutter di sfondo è utile perché, se correttamente eseguite, aumentano la rivelabilità del segnale d’interesse semplificando la successiva fase di rivelazione. I requisiti fondamentali di queste metodologie sono: capacità di soppressione del clutter di sfondo e la capacità di preservare le eventuali anomalie. Per la quantificazione di queste caratteristiche abbiamo identificato due parametri statistici che saranno utilizzati per la valutazione e il confronto delle prestazioni degli algoritmi implementati. Il primo parametro, che abbiamo definito CSI (Clutter Suppression Index), è il rapporto fra l’energia del residuo dopo la rimozione dello sfondo e l’energia dell’immagine di partenza: CSI = { E [ y (i, j , k ) − x(i, j , k )] 2 { E [ y (i, j , k )] 2 } } (4.3) dove, abbiamo indicato con y (i, j , k ) l’immagine di partenza (modello in (1)), mentre x(i, j , k ) rappresenta l’immagine dei residui dopo la rimozione del clutter. Il calcolo del MSE è stato eseguito al variare delle dimensioni finestra di filtraggio (N). Si intuisce facilmente che quanto più basso è il valore di CSI ottenuto, tanto meglio è stato rimosso lo sfondo. Il secondo parametro utilizzato per l’analisi delle tecniche di rimozione del clutter è il Rapporto Segnale Clutter (4.2) locale. Questo parametro è necessario per quantizzare la capacità di non-soppressione dell’anomalia. È facile intuire che, l’anomalia è mantenuta quando il rapporto SCR locale su x(i, j , k ) (dopo la rimozione) è pari o superiore a quello valutato prima della MIUR – Multitemporale, Rapporto Tecnico 4 29 rimozione (su y (i, j , k ) ). In fase di sperimentazione abbiamo simulato su alcune delle sequenze acquisite una serie di anomalie poste in posizioni opportune, ciascuna di esse con SCR locale pari a 10 dB. L’ ampiezza di ciascuna anomalia è stata calcolata invertendo la (4.2): SNR 10 10 ^ a = σb ⋅ (4.4) ^ Il valore della deviazione standard dello sfondo ( σ b ) è stato stimato utilizzando una finestra locale centrata sul bersaglio (i pixel del target sono stati esclusi dalla stima). L’anomalia è stata simulata con forma gaussiana bidimensionale ([B.6] e [B.7]) secondo la seguente formula: 1 i g(i, j ) = exp− 2 σ i 2 j + σj 2 (4.5) Original image + anomaly (20 dB) 6100 50 6000 5900 100 ANOMALIA 5800 SIMULATA 5700 150 5600 200 5500 5400 10 Figura 4.1 20 30 40 50 60 70 80 90 100 Una frame della sequenza simulata costituita da sfondo strutturato+anomalia gaussiana bidimensionale con SCR=10dB. MIUR – Multitemporale, Rapporto Tecnico 4 30 ANOMALIA SIMULATA Figura 4.2 Una frame della sequenza dei residui ottenuta con la tecnica di rimozione dello sfondo Max_Median. Per il filtraggio abbiamo utilizzato una finestra mobile di dimensioni 7x7 pixel. L’SCR locale dopo la rimozione è 10.7 dB (l’anomalia è stata preservata nel filtraggio). I parametri σ i e σ j rappresentano la deviazione standard lungo la riga (i, indice di riga) e la colonna (j, indice di colonna), ovvero le dimensioni del target, che abbiamo così fissato: σ i = σ j = 1 . In Figura 4.1 e Figura 4.2 riportiamo un esempio di simulazione, in particolare in Figura 4.1 è visualizzata una frame della sequenza simulata (anomalia+sfondo strutturato), mentre in Figura 4.2 è riportata una frame della sequenza dei residui, ottenuti con la tecnica di filtraggio Max_Median. Come detto precedentemente, per confrontare in modo rigoroso le tecniche di rimozione dello sfondo abbiamo calcolato l’SCR locale e l’ENERGY_RATIO al variare delle dimensioni N della finestra utilizzata per il filtraggio. In particolare, riportiamo i risultati ottenuti sulle sequenze simulate visualizzate e descritte nelle Figura 4.3-Figura 4.6. Su tali sequenze abbiamo implementato la metodologia di rimozione dello sfondo Local Mean Removal [B.8] (rimozione della media spaziale da ciascuna frame); la tecnica Local Median Removal [B.9] (rimuove la mediana spaziale) e le tecniche Max Median e Max Mean [B.10, B.11], che, ricordiamo, sono metodologie di filtraggio basate sulla combinazione di filtri monodimensionali a mediana/media. In tutti e quattro i casi, la stima la stima dei parametri (media e mediana) è stata eseguita con una finestra mobile (detta anche Kernel) di dimensioni 2N + 1. MIUR – Multitemporale, Rapporto Tecnico 4 31 50 100 150 Figura 4.3 50 100 150 200 250 300 Sequenza simulata. La sequenza è costituita da uno sfondo strutturato reale sul quale sono state simulate otto anomalie termiche, posizionate su sfondo uniforme, con SCR = 10 dB (l’intensità delle anomalie nella figura è aumentata per renderle visibili). ENERGY RATIO -1 10 Local Mean Removal Max Mean Algorithm Max Median Algorithm Local Median Removal -2 10 energy ratio -3 10 -4 10 -5 10 -6 10 Figura 4.4 2 2.5 3 3.5 4 4.5 5 Window size (pixels) 5.5 6 6.5 7 Valutazione quantitativa dei metodi di rimozione del clutter. Il grafico fornisce indicazioni sulla capacità di soppressione del clutter dei metodi analizzati in termini energia (MSE). Il confronto è eseguito al variare della dimensione della finestra mobile utilizzata per la rimozione (N). Nell’ambito delle sperimentazioni eseguite, la tecnica Max Median è quella che ha restituito migliori risultati, come dimostrato dai grafici (Figura 4.4, Figura 4.5, Figura 4.7, Figura 4.8) ottenuti dall’implementazione delle quattro tecniche di rimozione sulla sequenza Avvicinamento_auto (descritta nel Rapporto Tecnico 3) sulla quale sono state simulate 8 anomalie su sfondo uniforme e 5 su sfondo non uniforme (vicino a zone di transizione). Una volta eseguita la MIUR – Multitemporale, Rapporto Tecnico 4 32 rimozione dello sfondo e verificata la correttezza di tale operazione si potrà procedere all’identificazione delle anomalie utilizzando un algoritmo di rivelazione (cfr. Rapporto Tecnico 3). Per la rivelazione abbiamo riportato, a titolo di esempio, alcuni dei i risultati ottenuti dalla rivelazione di anomalie su sequenze di immagini IR con uno sfondo strutturato non stazionario spazialmente. Local Signal to Clutter Ratio 12.5 Local Mean Removal Max Mean Algorithm Max Median Algorithm Local Median Removal 12 11.5 SCRL (dB) 11 10.5 10 9.5 9 8.5 Figura 4.5 2 2.5 3 3.5 4 4.5 5 Window size (pixels) 5.5 6 6.5 7 Valutazione quantitativa dei metodi di rimozione del clutter. In fase di sperimentazione abbiamo simulato 8 anomalie termiche con 10 dB di SCR (locale) su uno sfondo strutturato reale. Il grafico rappresenta SCR locale medio dopo la rimozione eseguita con i vari metodi al variare della dimensione della finestra mobile utilizzata per la rimozione. 50 100 150 50 Figura 4.6 100 150 200 250 300 Sequenza simulata per le sperimentazioni. La sequenza è costituita da uno sfondo strutturato reale sul quale sono state simulate cinque anomalie termiche, posizionate su sfondo non uniforme, con SCR=10 dB (l’intensità delle anomalie nella figura è aumentata per renderle visibili). MIUR – Multitemporale, Rapporto Tecnico 4 33 CSI (Clutter Suppression Index) ENERGY RATIO -1 10 Local Mean Removal Max Mean Algorithm Max Median Algorithm Local Median Removal -2 10 energy ratio -3 10 CSI -4 10 -5 10 -6 10 Figura 4.7 2 2.5 3 3.5 4 4.5 5 Window size (pixels) 5.5 6 6.5 7 Valutazione quantitativa dei metodi di rimozione del clutter. Il grafico fornisce indicazioni sulla capacità di soppressione del clutter dei metodi analizzati in termini energia. Il confronto è eseguito al variare della dimensione della finestra mobile utilizzata per la rimozione. Local Signal to Clutter Ratio 17 Local Mean Removal Max Mean Algorithm Max Median Algorithm Local Median Removal 16 SCRL (dB) 15 14 13 12 11 10 Figura 4.8 2 2.5 3 3.5 4 4.5 5 Window size (pixels) 5.5 6 6.5 7 Valutazione qualitativa dei metodi di rimozione del clutter. In fase di sperimentazione abbiamo simulato un’anomalia termica con 10 dB di SCR (locale) su uno sfondo strutturato reale. Il grafico rappresenta SCR locale dopo la rimozione eseguita con i vari metodi al variare della dimensione della finestra mobile utilizzata per la rimozione. MIUR – Multitemporale, Rapporto Tecnico 4 34 Immagine originale 5800 20 5750 40 5700 60 5650 80 5600 100 120 5550 140 50 Figura 4.9 100 150 200 250 300 Un frame della sequenza utilizzata per l’implementazione dell’algoritmo di rivelazione che consiste in due fasi: rimozione sfondo e rivelazione. Le dimensioni della sequenza sono 140x320x50, rispettivamente righe, colonne e frame. Immagine dopo il filtraggio 80 60 20 40 40 20 0 60 -20 80 -40 100 -60 -80 120 -100 140 50 100 150 200 250 300 Figura 4.10 In questa figura abbiamo visualizzato una frame della sequenza dopo la rimozione dello sfondo, ottenuta implementando l’algoritmo Max_Median con una finestra mobile di 7x7 pixel (N=3). MIUR – Multitemporale, Rapporto Tecnico 4 35 Risultato filtraggio (massimo fra gli L) 60 20 50 40 40 60 30 80 20 100 10 120 50 100 150 200 250 300 Figura 4.11 La sequenza dei residui è stata filtrata con un banco di 9 filtri in velocità. La frame visualizzata rappresenta il risultato del filtraggio (massimo fra i 9). Rivelazione della anomalia 1 0.9 20 0.8 0.7 40 0.6 60 0.5 ANOMALIA 0.4 RIVELATA 80 0.3 100 0.2 0.1 120 50 100 150 200 250 300 0 Figura 4.12 Risultato dell’operazione di sogliatura sulla frame filtrata risultato. Se la statistica del generico (i , j ) pixel 0 0 di Figura 4.11 supera la soglia ( λ ) allora tale pixel è messo a 1, altrimenti è 0. La soglia è stata calcolata in modo da minimizzare la probabilità di falso allarme. MIUR – Multitemporale, Rapporto Tecnico 4 36 La sequenza utilizzata è costituita da uno sfondo rurale e da un’anomalia termica in movimento, non visibile sulla singola frame. Sulla sequenza di dati così definita, abbiamo implementato le due fasi di elaborazione previste, ovvero la rimozione del clutter di sfondo e la rivelazione. In Figura 4.9 e Figura 4.10 sono visualizzate, rispettivamente, una frame della sequenza originale e una frame della sequenza dopo la rimozione dello sfondo eseguita con tecnica Max_Median. La fase di rivelazione è stata eseguita implementando l’algoritmo GRLT (Rapporto Tecnico 3) sulle prime 50 frame della sequenza dei residui che sono state filtrate con un banco di 9 filtri in velocità (L=9). Il risultato massimo (fra gli L filtri) del filtraggio è visualizzato in Figura 4.11. Le statistiche ottenute, ovvero ciascun pixel della frame di Figura 4.11, sono state confrontate con una soglia ( λ ) scelta secondo un criterio che minimizza la probabilità di falso allarme. In Figura 4.12 riportiamo il risultato della decisione: l’anomalia è dichiarata presente quando la statistica del generico pixel (i0 , j0 ) supera λ . Come si può osservare, l’anomalia è stata rivelata senza falsi allarmi. I pixel rilevati sono stati cerchiati per renderli facilmente individuabili. 4.2. Sviluppi futuri Le UR di Pisa e Firenze hanno contribuito al WP3 – Analisi di immagini ipertemporali del progetto di ricerca sviluppando i seguenti temi: 1) rappresentazione efficiente dei dati; 2) modellazione statistica dei dati ipertemporali; 3) rimozione del clutter di sfondo (frame a frame); 4) rivelazione anomalie (basata su GRLT); Per quanto riguarda il punto 4, è stata proposta un’originale tecnica di rivelazione basata sull’integrazione di più frame. Le prestazioni di tale tecnica in termini di probabilità di falso allarme e di rivelazione sono state ricavate per via analitica e confermate mediante dati sperimentali e simulazioni. Attualmente, l’UR di Pisa sta studiando una nuova tecnica, alternativa a quella proposta, e basata su un approccio del tipo MHT (Multistage Hypothesis Testing). Una delle attività previste in questo campo sarà quella di confrontare le prestazioni di questo nuovo approccio con quelle ottenute mediante la metodologia di filtraggio 3D proposta in questo progetto. Per quanto riguarda il punto 3 sono state proposte nuove tecniche per la fase di rimozione dello sfondo. Tale fase è molto critica in quanto dalla sua buona riuscita dipendono le prestazioni di tutto il sistema di rivelazione. Sono pertanto state proposte nuove tecniche per la stima e la rimozione dello sfondo ed è stata effettuata un’analisi comparativa delle loro prestazioni su dati sperimentali. Sulla base dei risultati ottenuti si sono individuati possibili sviluppi futuri di ricerca. Data l’importanza di questo MIUR – Multitemporale, Rapporto Tecnico 4 37 tema, l’UR di Pisa prevede infatti di approfondirne ulteriormente alcuni aspetti. In particolare, si prevede di migliorare le prestazioni nella stima dello sfondo utilizzando nuove tecniche che si basano sull’integrazione di più frame (filtraggio spazio-temporale). Su questo tema, sono in fase di preparazione un articolo sottoposto a rivista ed uno a congresso internazionale. Interessanti sviluppi sono inoltre attesi dai risultati ottenuti nella fase 2). In particolare, i modelli di rumore studiati ed adattati alle sequenze di immagini IR, potranno essere utilizzati per affinare gli algoritmi di analisi (vedi NAPCA, o tecniche affini) e per migliorare le prestazioni degli algoritmi di rivelazione. 4.3. Bibliografia [B.1] Avraham Levy and Michael Lindenbaum, Efficient Sequential Karhunen-Loeve Basis Extraction, IEEE Transactions on Image Processing, pp 456-460, 2001. [B.2] S.D. Blostein and T.S. Huang, Detecting Small Moving Objects in Image Sequences Using Sequential Hypothesis Testing, IEEE Transaction on Signal Processing, vol. 39, n.7, July 1991. [B.3] B. R. Hunt and T. M Cannon, Nonstationary assumptions for Gaussian Models of Images, IEEE Transactions on Systems, Man and Cybernectics, December 1976, pp. 876-882. [B.4] S. Reed and X. Yu, Adaptive Multiple-Band CFAR Detection of an Optical Pattern with Unknown Spectral Distribution, IEEE Transaction on Acoustic, Speech and Signal Processing, Vol. 38, n. 10, October 1990. [B.5] Margalit, I.S., Reed, R.M. Gagliardi, Adaptive Optical Target Detection Using Correlated Images, IEEE Transactions on Aerospace and Electronic Systems, vol. 21, no. 3, May 1985, pp. 394-405. [B.6] D. S. K. Chan, D. A. Langan and D. A. Staver, Spatial Processing Techniques for the Detection of Small Targets in IR Clutter, SPIE Proceedings Signal and Data Processing of Small Targets, vol. 1305, 1990, pp.53-62. [B.7] D. H. Xue, An Extended Track-Before Detect Algorithm for Infrared Target Detection, IEEE Transactions on Aerospace and Electronic Systems, Vol. 33, n. 3, July 1997, pp. 1087-1092. [B.8] N.C. Mohaanty, Computer Tracking of Moving Point Targets in Space, IEEE Transactions on Pattern analysis and machine intelligence, vol. PAMI-3, NO. 5, September 1981. [B.9] Gonzalo R. Arce and Robert L. Stevenson, On the Synthesis of Median Filter Systems, IEEE Transactions on Circuits and Systems, vol. CAS-34, no. 4, April 1987. MIUR – Multitemporale, Rapporto Tecnico 4 38 [B.10] Gonzalo R. Arce and Michael P. McLoughlin, Theoretical Analysis of the Max/Median Filter, IEEE Transactions on Acoustic, Speech, and Signal Processing, vol. ASSP-35, No. 1, January 1987, pp. 60-69. [B.11] S.D. Deshpande, V. Ronda, P. Chan, Max-mean and Max-median filters for detection of small targets, SPIE Conference on Signal and data Processing of small targets, vol. 3809, no. 1, January 1987. MIUR – Multitemporale, Rapporto Tecnico 4 39 5. WP4 – COMPRESSIONE DI IMMAGINI MULTI/IPERTEMPORALI Unità di Ricerca coinvolte nello sviluppo del WP4: Napoli, Firenze Responsabile WP4: G. Poggi – Responsabile UR Napoli Responsabile UR Firenze: L. Alparone 5.1. Sintesi delle tecniche sviluppate e dei risultati ottenuti Nel corso della ricerca, l’UR di Napoli si è occupata della compressione region-based di immagini multitemporali, basata cioè su segmentazione. Le tecniche considerate prevedono tutte • segmentazione delle immagini; • codifica lossless della mappa di segmentazione; • compressione lossy della texture. Sono state considerate numerose alternative per tutti questi aspetti. In particolare per la segmentazione si sono considerate sia tecniche puntuali (a minima distanza) che contestuali (Bayesiane basate su modello MRF), sempre implementate attraverso algoritmi ricorsivi, e quindi con la generazione di mappe di segmentazione strutturate ad albero. Per quanto riguarda la compressione della texture, invece, si è fatto uso della codifica con trasformata, e le principali alternative considerate sono state la sequenza KLT-DCT seguita da quantizzazione scalare adattativa, oppure la trasformata wavelet con codifica SPIHT. La scelta della combinazione migliore si è basata non solo sulle prestazioni tasso-distorsione ma anche sui tempi di esecuzione, che rappresentano un elemento importante per il successo di un’applicazione. A valle della fase di sperimentazione preliminare si è dunque implementata la tecnica denominata TSVQ-KLT-DCTSQ, cioè con segmentazione a minima distanza, KLT spettrale, DCT spaziale per classi omogenee e quantizzazione scalare parametrica con allocazione ottima delle risorse. I risultati sperimentali sul data set di prova disponibile sono stati molto soddisfacenti. In termini di prestazioni assolute, si può osservare che a tassi di codifica di 0.8 bit/pixel (rapporti di compressione di 10:1, inattingibili da tecniche lossless) si sono ottenute immagini ricostruite senza perdita di qualità apprezzabile, cioè virtualmente indistinguibili dalle originali, mentre a tassi più bassi, intorno a 0.2-0.4 bpp, pur osservando un aumento della distorsione, si può dire che la qualità è ancora del tutto adeguata alla maggior parte delle successive elaborazioni automatiche cui le immagini possono essere sottoposte. In termini relativi, poi, la tecnica proposta basata MIUR – Multitemporale, Rapporto Tecnico 4 40 sull’approccio region-based permette di guadagnare da 2 a 4 dB rispetto alla corrispondente tecnica convenzionale praticamente a tutti i tassi di codifica d’interesse. L’UR di Firenze ha invece sviluppato un codificatore video "inter-frame", basato su predizione spazio-temporale, di tipo "near-lossless", in grado cioè di controllare localmente l'errore massimo in valore assoluto, fino alla totale reversibilità, opzione che può essere attivata in caso di basse velocità di quadro o canale di comunicazione ad alta velocità. La caratteristica principale del codificatore sviluppato è l'elevata semplicità strutturale e computazionale, che ne garantisce un funzionamento in tempo reale su qualsiasi tipo di hardware commerciale. Per tale motivo è stato studiato un predittore che permette di sfruttare la ridondanza temporale tipica di scene con bassa evoluzione temporale (camera fissa). Il quantizzatore lineare consente sia compressione reversibile (con passo uguale a 1) che irreversibile di tipo near-lossless (con passo intero dispari maggiore di 1). I risultati di compressione sulle sequenze da termocamera video acquisite durante il progetto all'interno del WP3 hanno dimostrato che è possibile ottenere un bit rate di circa 1.7 bit per pixel, pari a circa 128 kbit/quadro con un errore massimo di ricostruzione pari a due livelli di digitalizzazione, su una dinamica di 4096 livelli (12 bit). Tale valore di compressione pari a circa sette è caratterizzato dal fatto che la varianza dell'errore di ricostruzione è circa un ordine di grandezza inferiore rispetto al rumore di fondo del dato, la cui varianza è stata misurata all'interno del WP3. Questo fatto, unito all'assenza di "code" nella distribuzione dell'errore di ricostruzione garantisce che i dati compressi possiedono di fatto la stessa qualità di quelli non compressi. Questa modalità operativa dei metodi di compressione "near-lossless" corrisponde ad un caso "virtualmente senza perdita", mentre una compressione strettamente reversibile consentirebbe un rapporto di compressione circa pari a tre. 5.2. Sviluppi futuri Per quanto riguarda la compressione di immagini multitemporali, il prosieguo della ricerca riguarderà due aspetti. In primo luogo si vuole ulteriormente sviluppare l’approccio di codifica proposto passando ad una vera e propria codifica dinamica, nella quale non solo i parametri, ma l’algoritmo stesso di codifica viene selezionato adattivamente in funzione delle caratteristiche della regione in esame. Ad esempio, per una regione con una marcata texture potrebbe convenire ricorrere a tecniche di codifica sintetica, mentre per zone molto dolcemente variabili si potrebbe abbandonare l’approccio con trasformata ed usare una semplice approssimazione polinomiale. Inoltre, restando nell’ambito della codifica con trasformata, si può adattare alle caratteristiche della MIUR – Multitemporale, Rapporto Tecnico 4 41 zona in esame il tipo della trasformata (KLT, DCT, WT) o, in ambito WT, la famiglia di filtri o i livelli di decomposizione utilizzati. La seconda linea di ricerca riguarda invece l’utilizzo delle potenzialità dell’approccio region-based per migliorare il servizio offerto all’utente. Si tratta di identificare le feature di interesse nelle principali situazioni applicative, come la trasmissione delle sole regioni di interesse (es. quelle affette da cambiamenti) oppure la trasmissione preliminare della mappa di segmentazione dettagliata o delle sola mappa di change detection, o ancora la diversa allocazione delle risorse alle regioni in funzione degli interessi dell’utente stesso. Per la codifica di immagini ipertemporali, possibili sviluppi del metodo saranno possibili una volta specificato il contesto applicativo. In particolare la velocità di trasmissione, la piattaforma di calcolo, ed eventuali requisiti di qualità meno stringenti del caso “virtually-lossless” che potrebbero consentire il ricorso a rapporti di compressione più elevati di sette. Le caratteristiche di basso movimento delle scene monitorate fanno si che la predizione temporale non risulti critica: di fatto la correlazione temporale del rumore deve essere sfruttata per la predizione, per cui il predittore può essere essere ottimizzato una volta specificata la velocità di quadro. Nel caso siano richieste prestazioni più spinte e qualora l’hardware lo consenta, è possibile utilizzare una predizione adattativa, ad esempio che commuta tra un insieme limitato di predittori fissi ottimizzati sulle caratteristiche geometriche degli errori di predizione spazio-temporali. MIUR – Multitemporale, Rapporto Tecnico 4 42