III - ISIP40

Transcript

III - ISIP40
Dott. Dore Alessio
RELAZIONE SULL'ATTIVITA' E LE RICERCHE SVOLTE ALLA
CONCLUSIONE DEL III ANNO DEL XXII CICLO DEL CORSO DI
DOTTORATO DI RICERCA IN SCIENZE E INGEGNERIA DELLO SPAZIO
1. TEMATICHE DI RICERCA
Le tematiche da me sviluppate hanno avuto per oggetto (non più di 2 o 3 righe,
numerando gli argomenti, da riportarsi in forma succinta come nell 'esempio
seguente: tali argomenti verranno riportati nel verbale dell'eventuale approvazione):
1)
2)
Metodi Bayesiani bio-inspired per l’apprendimento e il modellamento delle
interazioni;
Algoritmi per l’inseguimento di oggetti multipli basati su filtraggio Bayesiano;
(segue una descrizione di 2-5 pagine al massimo, che illustra le tematiche di cui
sopra. Si raccomanda di rispettare la numerazione dei paragrafi sotto riportata).
L’attività di ricerca svolta nel III anno di dottorato è stata incentrata sullo sviluppo e
miglioramento delle tecniche e metodologie realizzate nei precedenti anni. In
particolare le tematiche relative ai punti 1.1 e 1.2 hanno avuto come obiettivo quello
di implementare modelli Bayesiani in grado di gestire le interazioni tra oggetti. Le
due linee di ricerca mirano a questa finalità in due ambiti diversi ma intercorrelati
ovvero il riconoscimento di attività e il tracking (inseguimento) dove le interazioni tra
oggetti rappresentano gli elementi di maggior rilievo.
Si è deciso di concentrarsi su questi argomenti in quanto essi sono di principale
rilevanza nell’ambito dei sistemi di videosorveglianza intelligente per la rilevazione
di situazioni pericolose o anomale. Questi sistemi rappresentano un ambito di ricerca
di interesse in diversi domini applicativi. Infatti, essi possono essere utilizzati per
comprendere automaticamente ciò che avviene in una scena al fine di supportare gli
operatori umani nei compiti di monitoraggio e controllo. Esempi in cui questa
funzionalità può essere particolarmente utile sono, oltre alla classica sicurezza fisica,
l’intelligenza di ambiente e le applicazioni di interazioni uomo-macchina. L’utilizzo
di tali tecnologie può, quindi, avere ricadute anche in ambito spaziale per esempio per
il controllo delle attività degli astronauti.
1.1. In questa attività si è proceduto nello sviluppo del lavoro descritto al punto 1.1
degli anni precedenti. Lo studio dei modelli di interazioni tra coppie di oggetti
rappresenta un argomento di ricerca promettente e di notevole interesse per l’analisi
automatica della scena da sequenze video. In questo ambito la ricerca ha investito
molti sforzi negli ultimi anni al fine di sviluppare sistemi sempre più efficienti e
robusti per molteplici applicazioni come, ad esempio, la sorveglianza intelligente [1][3], l’analisi di eventi sportivi e il monitoraggio e controllo di anziani o disabili.
Gli algoritmi realizzati nei primi due anni di dottorato avevano come finalità quella di
ottenere dei modelli rappresentativi delle interazioni che intercorrono tra due entità. A
questo fine si è presa ispirazione dagli studi neurofisiologici di Antonio Damasio [4]
che mostrano come la coscienza nella mente umana nasca proprio dall’interazione del
soggetto con il mondo esterno. In particolare, questo fenomeno si verifica tramite
l’associazione che avviene nel cervello in strutture dette second-order neural
patterns, tra proto-self, ovvero la struttura neurale che rappresenta stato interno del
soggetto, e il core-self, cioè la rappresentazione del mondo esterno. Gli eventi più
rilevanti generano la cosiddetta core consciousness (ovvero la coscienza di ciò che è
altro da sé) e sono memorizzati nella Autobiographical Memory.
Tenendo in considerazione il lavoro di Damasio, è stato sviluppato un algoritmo [5]
in grado di apprendere e modellare le interazioni al fine di predire eventi futuri per
applicazioni di Intelligenza di Ambiente. Le attività di quest’anno e del precedente
sono state rivolte a derivare un approccio probabilistico in grado di fornire un
supporto matematicamente coerente al modello di interazioni tra due entità. A questo
fine si è ricorso all’utilizzo delle Dynamic Bayesian Networks [6] (DBNs) per
sfruttare le proprietà di rappresentazione dei processi stocastici che hanno reso questi
strumenti matematici largamente utilizzati negli ambiti della Visione Computazionale
e dell’Intelligenza Artificiale. L’ambito applicativo scelto per dimostrare la validità
del modello probabilistico proposto è quello del riconoscimento di comportamenti di
coppie di persone che si muovono nell’ambiente tramite l’analisi delle traiettorie che
compiono. Il primo passo del metodo proposto si basa sull’algoritmo Instantaneous
Topological Map (ITM) [7] proposto da Jockusch e Ritter utilizzato per creare un
grafo dove i nodi sono i centri delle celle e gli archi le possibili connessioni tra essi.
In questo modo è possibile ottenere una mappa topologica dell’ambiente a partire
dall’osservazione di una serie di traiettorie da cui derivare gli eventi interpretati come
passaggi da una zona ad un’altra. Nello specifico ε tP e ε tC sono gli eventi Proto e
Core rispettivamente definiti come passaggi di zona all’interno della mappa da parte
di due soggetti. Il modello probabilistico proposto mira a rappresentare delle densità
di probabilità che descrivono le interazioni tra i soggetti in termine di spostamenti,
ovvero:
p(ε tP | ε tC−Δt C , ε tP−Δt P )
(1)
p(ε tC | ε tP−Δt P , ε tC−ΔtC )
(2)
dove Δt P e Δt C rappresentano il tempo intercorso dal precedente evento rilevato. Il
modello grafico DBN utilizzato corrisponde a quello illustrato in Figura 1.
L’algoritmo per l’addestramento di questa DBN si basa su un meccanismo di voting
come quello descritto in [5] e sull’algoritmo di Expectation Maximization proposto da
Figueiredo e Jain [8].
Figura 1: Modello grafico della Dynamic Bayesian Network utilizzata per il riconoscimento di
interazioni
Diversi tipi di interazioni tra due soggetti che si muovono in un ambiente sono stati
presi in considerazione al fine di determinare le proprietà discriminative del modello.
Situazioni di interazione di tipo guardiano-intruso, guardiano-normale, persone non
interagenti, persone che si incontrano, persone che si incontrano, corsa, ecc. sono
state simulate al fine di generare una serie di modelli probabilistici
(5)
p (ε tP , ε tC | I i )
dove Ii è il tipo di interazione ed ε tP ed ε tC sono le variabili aleatorie che descrivono
gli eventi proto e core.
A partire da queste densità apprese, la classificazione delle interazione è ottenuta
tramite una misura incrementale:
lti = lti−ΔtC ,P + p(ε tP−Δ,Ct P ,C , ε tC−Δ, PtC ,P , ε tP ,C | I i )
(6)
che permette di classificare l’interazione con una stima Maximum Likelihood (ML)
ovvero:
(7)
I * = arg max i p (li )
Alcuni esempi di classificazioni sono riportati di seguito e compaiono in [9][10].
Tabella 1: Risultati di classificazione di interazioni (200 traiettorie per interazione)
Riferimenti Bibliografici 1.1
[1] C.S. Regazzoni, V. Ramesh and G.L. Foresti, “Scanning the Issue/Technology - special issue on
video processing, understanding and communications in third generation surveillance systems”,
Proceedings of the IEEE, vol. 89, n. 10, pp. 1355—1359, 2001
[2] N. Robertson and I. Reid “A general method for human activity recognition in video” Computer
Vision and Image Understanding, Vol. 104, n. 2, Nov. 2006
[3] S. Park and M. M. Trivedi, Multi-person interaction and activity analysis: a synergistic trackand body-level analysis framework, Machine Vision and Applications: Special Issue on Novel
Concepts and Challenges for the Generation of Video Surveillance Systems, August 2007.
[4] A. R. Damasio, The Feeling of What Happens-Body, Emotion and the Making of
Consciuousness. Harvest Books, 2000.
[5] A. Dore, A. F. Cattoni, and C. S. Ragazzoni “Interaction modeling and prediction in Smart
Spaces: a Bio-inspired approach based on Autobiographical Memory”, IEEE Transactions on
Systems, Man, and Cybernetics - Part A, accepted for publication
[6] K. P. Murphy. Dynamic Bayesian Networks : representation, inference and learning. PhD thesis,
Berkeley, CA, USA, 2002.
[7] J. Jockusch and H. Ritter. An instantaneous topological map for correlated stimuli. In
Proceedings of the international joint conference on neural Networks, volume 1, pages 529–
534, Washington, USA, 1999.
[8] M. A. T. Figueiredo and A. K. Jain, “Unsupervised learning of finite mixture models,” IEEE
Transaction on Pattern Analysis and Machine Intelligence, vol. 24, no. 3, pp. 381–396, 2002.
[9] A. Dore and C. S. Regazzoni, “Bayesian Bio-inspired Model for Learning Interactive
Trajectories”, International Conference on Advanced Video and Signal based Surveillance,
AVSS 2009, Genova, Italy, September 2 – 4, 2009.
[10] A. Dore and C.S. Regazzoni, “Interaction Analysis with a Bayesian Bio-inspired Trajectory
Model”, IEEE Intelligent Systems, submitted in September 2009.
1.2. Nelle relazioni dei primi due anni al punto 1.2 sono stati presentati due algoritmi
di inseguimento che utilizzano l’algoritmo del Particle Filter [1] per stimare
congiuntamente posizione e posa dell’oggetto. A questo fine il vettore di stato è
definito in modo da contenere le posizioni di alcuni corner (cioè i punti ad elevata
curvatura nell’immagine) appartenenti all’oggetto. L’algoritmo del Particle Filter
permette di effettuare una stima di densità di probabilità a posteriori non lineari e
Gaussiane descrivendo le pdf tramite un insieme di campioni pesati che possono
essere interpretati come possibili ipotesi del valore dello stato. La procedura di stima
avviene in modo ricorsivo attraverso tre passi successivi ovvero 1) predizione; 2)
aggiornamento; 3) ricampionamento. Nell’algoritmo proposto in [2],[3] la predizione
era eseguita utilizzando un modello autoregressivo del second’ordine in cui si
valutava lo spostamento del passo precedente per determinare il movimento
successivo. L’algoritmo sviluppato nel secondo anno di dottorato e presentato in [5]
permette di risolvere alcuni problemi di robustezza in caso di movimenti erratici, di
sfondi complessi e occlusioni severe mediante l’utilizzo di una predizione basata
sull’algoritmo del Mean Shift [4] e di uno schema di Particle filter detto Sequential
Importance Sampling (SIS), dove la predizione dipende anche dall’osservazione
corrente ed è quindi più accurata.
Al fine di migliorare l’accuratezza della stima della posa un nuovo algoritmo [6] è
stato implementato in cui si è deciso di utilizzare l’algoritmo Kanade-Lucas-Tomasi
(KLT) [7] per predire la posizione di ciascun sotto-spazio dello stato, ovvero di
ciascun corner. Al fine di mantenere l’inseguimento in caso di variazioni sostanziali
di forma e di interazioni con altri oggetti è stato proposto un modello predittivo
adattivo in cui è possibile definire diversi modelli di predizione per ciascun corner
dello stato, ovvero
⎧ Ν ( xk −1( i ) + KLTi , σ k2( i ) )
⎪
p ( xk | xk −1 , zk ) = ⎨Ν ( xk −1( i ) + vk −1( i ) ⋅ T , σ k2( i ) )
⎪
( zk −1( i ) , σ k2( i ) )
⎩
(1)
dove KLTi rappresenta il vettore di spostamento del corner i-esimo calcolato
mediante il KLT e σ k2 è una varianza variabile e adattiva per ogni sottospazio dello
stato che è utilizzata per gestire le deformazioni dell’oggetto. Il primo modello si
utilizza nel caso in cui il tracker KLT permette di inseguire il corner i-esimo. Quando
è rilevata un’occlusione o l’inseguimento è perso si utilizza il secondo modello (autoregressivo del secondo ordine) per alcuni frame per cercare di mantenere la forma
dell’oggetto e cercare di riassociare ad un corner nelle vicinanze. Quando questo non
è possibile si associa il sotto-spazio i-esimo ad un nuovo corner il cui inseguimento
con KLT è stabile (terzo modello)
Il passo di aggiornamento in cui sono calcolati i pesi delle particelle è realizzato
secondo la formula:
w αw
m
k
m
k −1
p ( zk | xkm ) p ( xkm | xkm−1 )
q ( xkm | xkm−1 , zk )
(2)
con p ( zk | xkm ) che indica la likelihood tra la particella xkm e le osservazioni zk ,
p ( xkm | xkm−1 ) la probabilità a priori di movimento impostata come uniforme finestrata in
base allo spostamento massimo calcolabile e q ( xkm | xkm−1 , zk ) un fattore che aumenta il
valore delle particelle meno probabili. La likelihood è calcolata combinando con una
somma pesata le informazioni di forma e colore. La componente di verosimiglianza
basata sul colore si ottiene mediante il confronto a frame successivi tra descrittori
(istogrammi colore di patch centrate sui corner) dei corner ottenuto utilizzando il
coefficiente di Bhattacchaarya. La verosimiglianza della forma è invece ottenuta con
un metodo di confronto basato sui corner.
Il passo di ricampionamento, infine, elimina le ipotesi meno informative al fine di
rappresentare meglio la densità di probabilità a posteriori.
In Tabella 2 sono riportati alcuni risultati comparativi del metodo proposto,
l’algoritmo Multiple-cue Adaptive Particle filter based Tracker (MAPT) [5], e il
Mean Shift [4].
Tabella 2: Risultati quantitativi del metodo proposto confrontato con altri due tracker
In Figura 2 sono presentati alcuni frame ottenuti durante il tracking di oggetti
multipli.
Figura 2: Esempio di tracking di oggetti multipli
Riferimenti Bibliografici 1.2
[1] B. Ristic, S. Arulapalam, and N. Gordon, Beyond the Kalman Filter, Artech House Publishers,
2004.
[2] A.Dore, M. Asadi, and C.S. Regazzoni, "Multiple hypothesis shape tracking using particle
[3]
[4]
[5]
[6]
[7]
filtering and Hough-based observation models," SPIE Electronic Imaging - Visual
Communications and Image Processing, VCIP 2007, San Jose, CA, USA, January 2007
A.Dore, M. Musso, and C.S. Regazzoni, "MAP Particle Selection in Shape-Based Object
Tracking," IEEE International Conference on Image Processing, ICIP 2007, San Antonio, TX,
USA, 16 - 19 September 2007
D. Comaniciu, V. Ramesh, and P. Meer, “Kernel based object tracking,” IEEE Trans. PAMI, vol.
25, no. 5, pp. 564–577, 2003.
A.Dore, A. Beoldo, and C.S. Regazzoni, "Multiple Cue Adaptive Tracking of Deformable Objects
with Particle Filter," IEEE International Conference on Image Processing, ICIP 2008, San Diego,
CA, USA, 12 - 15 October 2008
A. Dore, A. Beoldo and C. S. Regazzoni, “Multitarget Tracking with a Corner-based Particle
Filter”, International Workshop on Visual Surveillance, VS 2009, in conjunction with ICCV 2009,
Kyoto, Japan, 27 September - 4 October 2009
J. Shi and C. Tomasi. Good features to track. In Proc. Of IEEE Conference on Computer Vision
and Pattern Recognition, CVPR’94, pages 593 – 600, 1994.
2.
ELENCO DELLE PUBBLICAZIONI (dall'inizio dell'attività di ricerca)
Articoli su rivista
•
A. Dore, A. F. Cattoni and C. S. Regazzoni, “Interaction Modeling and
Prediction in Smart Spaces: a Bio-Inspired Approach Based on
Autobiographical Memory”, IEEE Transaction on Systems, Man and
Cybernetics – Part A: Systems and Humans, Accepted for publication,
October 2009.
Capitoli di libro
•
A. Dore, M. Pinasco and C. S. Regazzoni, "Multi-modal Data Fusion
Techniques and Applications, in H. Aghajan, A. Cavallaro, Multi-Camera
Networks: Concepts and Applications, Elsevier, UK 2009.
Articoli su conferenza internazionali
•
•
A. Dore, A. Beoldo and C. S. Regazzoni, “Multitarget Tracking with a
Corner-based Particle Filter”, International Workshop on Visual Surveillance,
VS 2009, in conjunction with ICCV 2009, Kyoto, Japan, 27 September - 4
October 2009
A. Beoldo, A. Dore and C. S. Regazzoni, “Extraction of Contextual
Information for Automotive Applications”, International Conference on Image
Processing, ICIP 2009, Cairo, Egypt, November 7 – 11, 2009.
•
•
•
•
•
•
•
•
•
•
•
•
A. Dore and C. S. Regazzoni, “Bayesian Bio-inspired Model for Learning
Interactive Trajectories”, International Conference on Advanced Video and
Signal based Surveillance, AVSS 2009, Genova, Italy, September 2 – 4, 2009.
S. Maludrottu, A. Dore, M. Beoldo e C.S. Regazzoni, “Human interaction
analysis for video surveillance: a cognitive approach”, InternationalWorkshop
on Pattern Recognition and Artificial Intelligence for Human Behaviour
Analysis, PRAI*HBA 2009, Reggio Emilia, Italy, December 12, 2009
S.Maludrottu, A.Dore, H.Sallam, C.Regazzoni "Performance Evaluation of
Multisensor Architectures for Tracking", International Workshop on Multi
camera and Multi-modal Sensor Fusion Algorithms and Applications,
M2SFA2 2008, in conjunction with ECCV 2008, Marseille, France, 17
October 2008.
A.Dore, M. Asadi, and C.S. Regazzoni, "Online Discriminative Feature
Selection in a Bayesian Framework using Shape and Appearance,"
International Workshop on Visual Surveillance, VS 2008, in conjunction with
ECCV 2008, Marseille, France, 17 October 2008
A.Dore, A. Beoldo, and C.S. Regazzoni, "Multiple Cue Adaptive Tracking of
Deformable Objects with Particle Filter," IEEE International Conference on
Image Processing, ICIP 2008, San Diego, CA, USA, 12 - 15 October 2008
A.Dore, A. Calbi, L. Marcenaro, and C.S. Regazzoni, "Multimodal Cognitive
System for Immersive User Interaction," ICST/ACM First International
Conference on Immersive Communications, IMMERSCOM 2007,
Bussolengo, Italy, 10 - 12 October 2007
A.Dore, M. Musso, and C.S. Regazzoni, "MAP Particle Selection in ShapeBased Object Tracking," IEEE International Conference on Image Processing,
ICIP 2007, San Antonio, TX, USA, 16 - 19 September 2007
M. Asadi, A.Dore, A. Beoldo, and C.S. Regazzoni, "Tracking by Using
Dynamic Shape Model Learning in the Presence of Occlusion," IEEE
International Conference on Advanced Video and Signal based Surveillance,
AVSS 2007, London, UK, 5 - 7 September 2007
A.Dore, A. Cattoni, and C.S. Regazzoni, "A Particle Filter-Based Fusion
Framework for Video-Radio Tracking in Smart-Spaces," IEEE International
Conference on Advanced Video and Signal based Surveillance, AVSS 2007,
London, UK, 5 - 7 September 2007
A.F.Cattoni, A.Dore, and C.S. Regazzoni, "Video-Radio Fusion Approach for
Target Tracking in Smart Spaces," International Conference on Information
Fusion, FUSION 2007, Québec City, Québec, Canada, 9 - 12 July 2007
A.Dore, M. Pinasco, and C.S. Regazzoni, "A Bio-inspired Learning Approach
for the Classification of Risk Zones in a Smart Space" Online Learning for
Classification Workshop, in conjunction with CVPR 2007, Minneapolis, MN,
USA, June 2007
A.Dore, M. Asadi, and C.S. Regazzoni, "Multiple hypothesis shape tracking
using particle filtering and Hough-based observation models," SPIE
Electronic Imaging - Visual Communications and Image Processing, VCIP
2007, San Jose, CA, USA, January 2007
In revisione
•
•
•
3.
A. Dore M. Soto and C.S. Regazzoni, “Multiple Cues Bayesian Tracking for
Video Analytics – An Overview”, IEEE Signal Processing Magazine,
submitted in November 2009.
A. Dore, M. Pinasco, L. Ciardelli and C.S. Regazzoni, “Bio-inspired System
Model for Interactive Surveillance Applications”, Journal of Ambient
Intelligence and Smart Environments, submitted in September 2009.
A. Dore and C.S. Regazzoni, “Interaction Analysis with a Bayesian Bioinspired Trajectory Model”, IEEE Intelligent Systems, submitted in
September 2009.
PIANO DI STUDI (degli anni completati)
Primo anno
3.1. Corso (Corsi) di... e/o scuole inserite nel piano di studi
• Sistemi e servizi cognitivi per l’Intelligenza d’Ambiente e le
Telecomunicazioni (A4) - Prof. C.S. Regazzoni, Università di Genova
• Machine Learning (A21) - Dr. Marco Muselli, C.N.R.
• International Computer Vision Summer School 2007 – ICVSS 2007- Prof. R.
Cipolla, University of Cambridge. Prof. S. Battiato, Università di Catania
• Tecniche di trasformazione di spazi vettoriali per analisi statistica
multidimensionale (A17) - Dr. Gabriele Moser, Università di Genova
3.2.
Secondo anno
Corso (Corsi) di ... e/o scuole inserite nel piano di studi
• Teoria dei Giochi (A23) – Prof. Fioravante Patrone Università di Genova
4.
PARTECIPAZIONE A SCUOLE, CORSI, ecc. (eventuale; non riportare
la partecipazione a conferenze, convegni ecc.)
• International Computer Vision Summer School 2007 – ICVSS 2007, Punta
Sampieri, RG, Luglio 2007
5.
PERIODI DI FORMAZIONE SVOLTI ALL'ESTERO (eventuale)
•
Periodo di ricerca presso University of Illinois at Chicago, Chicago, IL,
USA, Multimedia Communication Laboratory, 18 Agosto 2008 – 12
Ottobre 2008