III - ISIP40
Transcript
III - ISIP40
Dott. Dore Alessio RELAZIONE SULL'ATTIVITA' E LE RICERCHE SVOLTE ALLA CONCLUSIONE DEL III ANNO DEL XXII CICLO DEL CORSO DI DOTTORATO DI RICERCA IN SCIENZE E INGEGNERIA DELLO SPAZIO 1. TEMATICHE DI RICERCA Le tematiche da me sviluppate hanno avuto per oggetto (non più di 2 o 3 righe, numerando gli argomenti, da riportarsi in forma succinta come nell 'esempio seguente: tali argomenti verranno riportati nel verbale dell'eventuale approvazione): 1) 2) Metodi Bayesiani bio-inspired per l’apprendimento e il modellamento delle interazioni; Algoritmi per l’inseguimento di oggetti multipli basati su filtraggio Bayesiano; (segue una descrizione di 2-5 pagine al massimo, che illustra le tematiche di cui sopra. Si raccomanda di rispettare la numerazione dei paragrafi sotto riportata). L’attività di ricerca svolta nel III anno di dottorato è stata incentrata sullo sviluppo e miglioramento delle tecniche e metodologie realizzate nei precedenti anni. In particolare le tematiche relative ai punti 1.1 e 1.2 hanno avuto come obiettivo quello di implementare modelli Bayesiani in grado di gestire le interazioni tra oggetti. Le due linee di ricerca mirano a questa finalità in due ambiti diversi ma intercorrelati ovvero il riconoscimento di attività e il tracking (inseguimento) dove le interazioni tra oggetti rappresentano gli elementi di maggior rilievo. Si è deciso di concentrarsi su questi argomenti in quanto essi sono di principale rilevanza nell’ambito dei sistemi di videosorveglianza intelligente per la rilevazione di situazioni pericolose o anomale. Questi sistemi rappresentano un ambito di ricerca di interesse in diversi domini applicativi. Infatti, essi possono essere utilizzati per comprendere automaticamente ciò che avviene in una scena al fine di supportare gli operatori umani nei compiti di monitoraggio e controllo. Esempi in cui questa funzionalità può essere particolarmente utile sono, oltre alla classica sicurezza fisica, l’intelligenza di ambiente e le applicazioni di interazioni uomo-macchina. L’utilizzo di tali tecnologie può, quindi, avere ricadute anche in ambito spaziale per esempio per il controllo delle attività degli astronauti. 1.1. In questa attività si è proceduto nello sviluppo del lavoro descritto al punto 1.1 degli anni precedenti. Lo studio dei modelli di interazioni tra coppie di oggetti rappresenta un argomento di ricerca promettente e di notevole interesse per l’analisi automatica della scena da sequenze video. In questo ambito la ricerca ha investito molti sforzi negli ultimi anni al fine di sviluppare sistemi sempre più efficienti e robusti per molteplici applicazioni come, ad esempio, la sorveglianza intelligente [1][3], l’analisi di eventi sportivi e il monitoraggio e controllo di anziani o disabili. Gli algoritmi realizzati nei primi due anni di dottorato avevano come finalità quella di ottenere dei modelli rappresentativi delle interazioni che intercorrono tra due entità. A questo fine si è presa ispirazione dagli studi neurofisiologici di Antonio Damasio [4] che mostrano come la coscienza nella mente umana nasca proprio dall’interazione del soggetto con il mondo esterno. In particolare, questo fenomeno si verifica tramite l’associazione che avviene nel cervello in strutture dette second-order neural patterns, tra proto-self, ovvero la struttura neurale che rappresenta stato interno del soggetto, e il core-self, cioè la rappresentazione del mondo esterno. Gli eventi più rilevanti generano la cosiddetta core consciousness (ovvero la coscienza di ciò che è altro da sé) e sono memorizzati nella Autobiographical Memory. Tenendo in considerazione il lavoro di Damasio, è stato sviluppato un algoritmo [5] in grado di apprendere e modellare le interazioni al fine di predire eventi futuri per applicazioni di Intelligenza di Ambiente. Le attività di quest’anno e del precedente sono state rivolte a derivare un approccio probabilistico in grado di fornire un supporto matematicamente coerente al modello di interazioni tra due entità. A questo fine si è ricorso all’utilizzo delle Dynamic Bayesian Networks [6] (DBNs) per sfruttare le proprietà di rappresentazione dei processi stocastici che hanno reso questi strumenti matematici largamente utilizzati negli ambiti della Visione Computazionale e dell’Intelligenza Artificiale. L’ambito applicativo scelto per dimostrare la validità del modello probabilistico proposto è quello del riconoscimento di comportamenti di coppie di persone che si muovono nell’ambiente tramite l’analisi delle traiettorie che compiono. Il primo passo del metodo proposto si basa sull’algoritmo Instantaneous Topological Map (ITM) [7] proposto da Jockusch e Ritter utilizzato per creare un grafo dove i nodi sono i centri delle celle e gli archi le possibili connessioni tra essi. In questo modo è possibile ottenere una mappa topologica dell’ambiente a partire dall’osservazione di una serie di traiettorie da cui derivare gli eventi interpretati come passaggi da una zona ad un’altra. Nello specifico ε tP e ε tC sono gli eventi Proto e Core rispettivamente definiti come passaggi di zona all’interno della mappa da parte di due soggetti. Il modello probabilistico proposto mira a rappresentare delle densità di probabilità che descrivono le interazioni tra i soggetti in termine di spostamenti, ovvero: p(ε tP | ε tC−Δt C , ε tP−Δt P ) (1) p(ε tC | ε tP−Δt P , ε tC−ΔtC ) (2) dove Δt P e Δt C rappresentano il tempo intercorso dal precedente evento rilevato. Il modello grafico DBN utilizzato corrisponde a quello illustrato in Figura 1. L’algoritmo per l’addestramento di questa DBN si basa su un meccanismo di voting come quello descritto in [5] e sull’algoritmo di Expectation Maximization proposto da Figueiredo e Jain [8]. Figura 1: Modello grafico della Dynamic Bayesian Network utilizzata per il riconoscimento di interazioni Diversi tipi di interazioni tra due soggetti che si muovono in un ambiente sono stati presi in considerazione al fine di determinare le proprietà discriminative del modello. Situazioni di interazione di tipo guardiano-intruso, guardiano-normale, persone non interagenti, persone che si incontrano, persone che si incontrano, corsa, ecc. sono state simulate al fine di generare una serie di modelli probabilistici (5) p (ε tP , ε tC | I i ) dove Ii è il tipo di interazione ed ε tP ed ε tC sono le variabili aleatorie che descrivono gli eventi proto e core. A partire da queste densità apprese, la classificazione delle interazione è ottenuta tramite una misura incrementale: lti = lti−ΔtC ,P + p(ε tP−Δ,Ct P ,C , ε tC−Δ, PtC ,P , ε tP ,C | I i ) (6) che permette di classificare l’interazione con una stima Maximum Likelihood (ML) ovvero: (7) I * = arg max i p (li ) Alcuni esempi di classificazioni sono riportati di seguito e compaiono in [9][10]. Tabella 1: Risultati di classificazione di interazioni (200 traiettorie per interazione) Riferimenti Bibliografici 1.1 [1] C.S. Regazzoni, V. Ramesh and G.L. Foresti, “Scanning the Issue/Technology - special issue on video processing, understanding and communications in third generation surveillance systems”, Proceedings of the IEEE, vol. 89, n. 10, pp. 1355—1359, 2001 [2] N. Robertson and I. Reid “A general method for human activity recognition in video” Computer Vision and Image Understanding, Vol. 104, n. 2, Nov. 2006 [3] S. Park and M. M. Trivedi, Multi-person interaction and activity analysis: a synergistic trackand body-level analysis framework, Machine Vision and Applications: Special Issue on Novel Concepts and Challenges for the Generation of Video Surveillance Systems, August 2007. [4] A. R. Damasio, The Feeling of What Happens-Body, Emotion and the Making of Consciuousness. Harvest Books, 2000. [5] A. Dore, A. F. Cattoni, and C. S. Ragazzoni “Interaction modeling and prediction in Smart Spaces: a Bio-inspired approach based on Autobiographical Memory”, IEEE Transactions on Systems, Man, and Cybernetics - Part A, accepted for publication [6] K. P. Murphy. Dynamic Bayesian Networks : representation, inference and learning. PhD thesis, Berkeley, CA, USA, 2002. [7] J. Jockusch and H. Ritter. An instantaneous topological map for correlated stimuli. In Proceedings of the international joint conference on neural Networks, volume 1, pages 529– 534, Washington, USA, 1999. [8] M. A. T. Figueiredo and A. K. Jain, “Unsupervised learning of finite mixture models,” IEEE Transaction on Pattern Analysis and Machine Intelligence, vol. 24, no. 3, pp. 381–396, 2002. [9] A. Dore and C. S. Regazzoni, “Bayesian Bio-inspired Model for Learning Interactive Trajectories”, International Conference on Advanced Video and Signal based Surveillance, AVSS 2009, Genova, Italy, September 2 – 4, 2009. [10] A. Dore and C.S. Regazzoni, “Interaction Analysis with a Bayesian Bio-inspired Trajectory Model”, IEEE Intelligent Systems, submitted in September 2009. 1.2. Nelle relazioni dei primi due anni al punto 1.2 sono stati presentati due algoritmi di inseguimento che utilizzano l’algoritmo del Particle Filter [1] per stimare congiuntamente posizione e posa dell’oggetto. A questo fine il vettore di stato è definito in modo da contenere le posizioni di alcuni corner (cioè i punti ad elevata curvatura nell’immagine) appartenenti all’oggetto. L’algoritmo del Particle Filter permette di effettuare una stima di densità di probabilità a posteriori non lineari e Gaussiane descrivendo le pdf tramite un insieme di campioni pesati che possono essere interpretati come possibili ipotesi del valore dello stato. La procedura di stima avviene in modo ricorsivo attraverso tre passi successivi ovvero 1) predizione; 2) aggiornamento; 3) ricampionamento. Nell’algoritmo proposto in [2],[3] la predizione era eseguita utilizzando un modello autoregressivo del second’ordine in cui si valutava lo spostamento del passo precedente per determinare il movimento successivo. L’algoritmo sviluppato nel secondo anno di dottorato e presentato in [5] permette di risolvere alcuni problemi di robustezza in caso di movimenti erratici, di sfondi complessi e occlusioni severe mediante l’utilizzo di una predizione basata sull’algoritmo del Mean Shift [4] e di uno schema di Particle filter detto Sequential Importance Sampling (SIS), dove la predizione dipende anche dall’osservazione corrente ed è quindi più accurata. Al fine di migliorare l’accuratezza della stima della posa un nuovo algoritmo [6] è stato implementato in cui si è deciso di utilizzare l’algoritmo Kanade-Lucas-Tomasi (KLT) [7] per predire la posizione di ciascun sotto-spazio dello stato, ovvero di ciascun corner. Al fine di mantenere l’inseguimento in caso di variazioni sostanziali di forma e di interazioni con altri oggetti è stato proposto un modello predittivo adattivo in cui è possibile definire diversi modelli di predizione per ciascun corner dello stato, ovvero ⎧ Ν ( xk −1( i ) + KLTi , σ k2( i ) ) ⎪ p ( xk | xk −1 , zk ) = ⎨Ν ( xk −1( i ) + vk −1( i ) ⋅ T , σ k2( i ) ) ⎪ ( zk −1( i ) , σ k2( i ) ) ⎩ (1) dove KLTi rappresenta il vettore di spostamento del corner i-esimo calcolato mediante il KLT e σ k2 è una varianza variabile e adattiva per ogni sottospazio dello stato che è utilizzata per gestire le deformazioni dell’oggetto. Il primo modello si utilizza nel caso in cui il tracker KLT permette di inseguire il corner i-esimo. Quando è rilevata un’occlusione o l’inseguimento è perso si utilizza il secondo modello (autoregressivo del secondo ordine) per alcuni frame per cercare di mantenere la forma dell’oggetto e cercare di riassociare ad un corner nelle vicinanze. Quando questo non è possibile si associa il sotto-spazio i-esimo ad un nuovo corner il cui inseguimento con KLT è stabile (terzo modello) Il passo di aggiornamento in cui sono calcolati i pesi delle particelle è realizzato secondo la formula: w αw m k m k −1 p ( zk | xkm ) p ( xkm | xkm−1 ) q ( xkm | xkm−1 , zk ) (2) con p ( zk | xkm ) che indica la likelihood tra la particella xkm e le osservazioni zk , p ( xkm | xkm−1 ) la probabilità a priori di movimento impostata come uniforme finestrata in base allo spostamento massimo calcolabile e q ( xkm | xkm−1 , zk ) un fattore che aumenta il valore delle particelle meno probabili. La likelihood è calcolata combinando con una somma pesata le informazioni di forma e colore. La componente di verosimiglianza basata sul colore si ottiene mediante il confronto a frame successivi tra descrittori (istogrammi colore di patch centrate sui corner) dei corner ottenuto utilizzando il coefficiente di Bhattacchaarya. La verosimiglianza della forma è invece ottenuta con un metodo di confronto basato sui corner. Il passo di ricampionamento, infine, elimina le ipotesi meno informative al fine di rappresentare meglio la densità di probabilità a posteriori. In Tabella 2 sono riportati alcuni risultati comparativi del metodo proposto, l’algoritmo Multiple-cue Adaptive Particle filter based Tracker (MAPT) [5], e il Mean Shift [4]. Tabella 2: Risultati quantitativi del metodo proposto confrontato con altri due tracker In Figura 2 sono presentati alcuni frame ottenuti durante il tracking di oggetti multipli. Figura 2: Esempio di tracking di oggetti multipli Riferimenti Bibliografici 1.2 [1] B. Ristic, S. Arulapalam, and N. Gordon, Beyond the Kalman Filter, Artech House Publishers, 2004. [2] A.Dore, M. Asadi, and C.S. Regazzoni, "Multiple hypothesis shape tracking using particle [3] [4] [5] [6] [7] filtering and Hough-based observation models," SPIE Electronic Imaging - Visual Communications and Image Processing, VCIP 2007, San Jose, CA, USA, January 2007 A.Dore, M. Musso, and C.S. Regazzoni, "MAP Particle Selection in Shape-Based Object Tracking," IEEE International Conference on Image Processing, ICIP 2007, San Antonio, TX, USA, 16 - 19 September 2007 D. Comaniciu, V. Ramesh, and P. Meer, “Kernel based object tracking,” IEEE Trans. PAMI, vol. 25, no. 5, pp. 564–577, 2003. A.Dore, A. Beoldo, and C.S. Regazzoni, "Multiple Cue Adaptive Tracking of Deformable Objects with Particle Filter," IEEE International Conference on Image Processing, ICIP 2008, San Diego, CA, USA, 12 - 15 October 2008 A. Dore, A. Beoldo and C. S. Regazzoni, “Multitarget Tracking with a Corner-based Particle Filter”, International Workshop on Visual Surveillance, VS 2009, in conjunction with ICCV 2009, Kyoto, Japan, 27 September - 4 October 2009 J. Shi and C. Tomasi. Good features to track. In Proc. Of IEEE Conference on Computer Vision and Pattern Recognition, CVPR’94, pages 593 – 600, 1994. 2. ELENCO DELLE PUBBLICAZIONI (dall'inizio dell'attività di ricerca) Articoli su rivista • A. Dore, A. F. Cattoni and C. S. Regazzoni, “Interaction Modeling and Prediction in Smart Spaces: a Bio-Inspired Approach Based on Autobiographical Memory”, IEEE Transaction on Systems, Man and Cybernetics – Part A: Systems and Humans, Accepted for publication, October 2009. Capitoli di libro • A. Dore, M. Pinasco and C. S. Regazzoni, "Multi-modal Data Fusion Techniques and Applications, in H. Aghajan, A. Cavallaro, Multi-Camera Networks: Concepts and Applications, Elsevier, UK 2009. Articoli su conferenza internazionali • • A. Dore, A. Beoldo and C. S. Regazzoni, “Multitarget Tracking with a Corner-based Particle Filter”, International Workshop on Visual Surveillance, VS 2009, in conjunction with ICCV 2009, Kyoto, Japan, 27 September - 4 October 2009 A. Beoldo, A. Dore and C. S. Regazzoni, “Extraction of Contextual Information for Automotive Applications”, International Conference on Image Processing, ICIP 2009, Cairo, Egypt, November 7 – 11, 2009. • • • • • • • • • • • • A. Dore and C. S. Regazzoni, “Bayesian Bio-inspired Model for Learning Interactive Trajectories”, International Conference on Advanced Video and Signal based Surveillance, AVSS 2009, Genova, Italy, September 2 – 4, 2009. S. Maludrottu, A. Dore, M. Beoldo e C.S. Regazzoni, “Human interaction analysis for video surveillance: a cognitive approach”, InternationalWorkshop on Pattern Recognition and Artificial Intelligence for Human Behaviour Analysis, PRAI*HBA 2009, Reggio Emilia, Italy, December 12, 2009 S.Maludrottu, A.Dore, H.Sallam, C.Regazzoni "Performance Evaluation of Multisensor Architectures for Tracking", International Workshop on Multi camera and Multi-modal Sensor Fusion Algorithms and Applications, M2SFA2 2008, in conjunction with ECCV 2008, Marseille, France, 17 October 2008. A.Dore, M. Asadi, and C.S. Regazzoni, "Online Discriminative Feature Selection in a Bayesian Framework using Shape and Appearance," International Workshop on Visual Surveillance, VS 2008, in conjunction with ECCV 2008, Marseille, France, 17 October 2008 A.Dore, A. Beoldo, and C.S. Regazzoni, "Multiple Cue Adaptive Tracking of Deformable Objects with Particle Filter," IEEE International Conference on Image Processing, ICIP 2008, San Diego, CA, USA, 12 - 15 October 2008 A.Dore, A. Calbi, L. Marcenaro, and C.S. Regazzoni, "Multimodal Cognitive System for Immersive User Interaction," ICST/ACM First International Conference on Immersive Communications, IMMERSCOM 2007, Bussolengo, Italy, 10 - 12 October 2007 A.Dore, M. Musso, and C.S. Regazzoni, "MAP Particle Selection in ShapeBased Object Tracking," IEEE International Conference on Image Processing, ICIP 2007, San Antonio, TX, USA, 16 - 19 September 2007 M. Asadi, A.Dore, A. Beoldo, and C.S. Regazzoni, "Tracking by Using Dynamic Shape Model Learning in the Presence of Occlusion," IEEE International Conference on Advanced Video and Signal based Surveillance, AVSS 2007, London, UK, 5 - 7 September 2007 A.Dore, A. Cattoni, and C.S. Regazzoni, "A Particle Filter-Based Fusion Framework for Video-Radio Tracking in Smart-Spaces," IEEE International Conference on Advanced Video and Signal based Surveillance, AVSS 2007, London, UK, 5 - 7 September 2007 A.F.Cattoni, A.Dore, and C.S. Regazzoni, "Video-Radio Fusion Approach for Target Tracking in Smart Spaces," International Conference on Information Fusion, FUSION 2007, Québec City, Québec, Canada, 9 - 12 July 2007 A.Dore, M. Pinasco, and C.S. Regazzoni, "A Bio-inspired Learning Approach for the Classification of Risk Zones in a Smart Space" Online Learning for Classification Workshop, in conjunction with CVPR 2007, Minneapolis, MN, USA, June 2007 A.Dore, M. Asadi, and C.S. Regazzoni, "Multiple hypothesis shape tracking using particle filtering and Hough-based observation models," SPIE Electronic Imaging - Visual Communications and Image Processing, VCIP 2007, San Jose, CA, USA, January 2007 In revisione • • • 3. A. Dore M. Soto and C.S. Regazzoni, “Multiple Cues Bayesian Tracking for Video Analytics – An Overview”, IEEE Signal Processing Magazine, submitted in November 2009. A. Dore, M. Pinasco, L. Ciardelli and C.S. Regazzoni, “Bio-inspired System Model for Interactive Surveillance Applications”, Journal of Ambient Intelligence and Smart Environments, submitted in September 2009. A. Dore and C.S. Regazzoni, “Interaction Analysis with a Bayesian Bioinspired Trajectory Model”, IEEE Intelligent Systems, submitted in September 2009. PIANO DI STUDI (degli anni completati) Primo anno 3.1. Corso (Corsi) di... e/o scuole inserite nel piano di studi • Sistemi e servizi cognitivi per l’Intelligenza d’Ambiente e le Telecomunicazioni (A4) - Prof. C.S. Regazzoni, Università di Genova • Machine Learning (A21) - Dr. Marco Muselli, C.N.R. • International Computer Vision Summer School 2007 – ICVSS 2007- Prof. R. Cipolla, University of Cambridge. Prof. S. Battiato, Università di Catania • Tecniche di trasformazione di spazi vettoriali per analisi statistica multidimensionale (A17) - Dr. Gabriele Moser, Università di Genova 3.2. Secondo anno Corso (Corsi) di ... e/o scuole inserite nel piano di studi • Teoria dei Giochi (A23) – Prof. Fioravante Patrone Università di Genova 4. PARTECIPAZIONE A SCUOLE, CORSI, ecc. (eventuale; non riportare la partecipazione a conferenze, convegni ecc.) • International Computer Vision Summer School 2007 – ICVSS 2007, Punta Sampieri, RG, Luglio 2007 5. PERIODI DI FORMAZIONE SVOLTI ALL'ESTERO (eventuale) • Periodo di ricerca presso University of Illinois at Chicago, Chicago, IL, USA, Multimedia Communication Laboratory, 18 Agosto 2008 – 12 Ottobre 2008