Riconoscimento di volti con tecniche 3D per controlli di - imati-cnr

Transcript

Riconoscimento di volti con tecniche 3D per controlli di - imati-cnr
Scienza e Tecnica Rendono Sicuro il Lavoro, Bragatto & Monti (a cura di) 2009 ISPESL CNR, Genova
ISBN 978-88-904413-1
Riconoscimento di volti con tecniche 3D per controlli di sicurezza
Daniela Giorgi1; Marco Attene1; Giuseppe Patanè1; Simone Marini1; Corrado Pizzi1; Silvia Biasotti1;
Michela Spagnuolo1; Bianca Falcidieno1; Lisa Usai2.
1
Istituto di Matematica Applicata e Tecnologie Informatiche - CNR, Genova (Italia)
2
Elsag-Datamat, Genova (Italia)
Sommario
Il controllo degli accessi ad aeree riservate è fondamentale per garantire la sicurezza dei lavoratori e più in
generale dei cittadini, e motiva l'uso di sistemi avanzati di identificazione basati su tecniche biometriche. Uno
studio congiunto IMATI-Elsag-Datamat dimostra che le tecniche di riconoscimento facciale basate su immagini
2D possono risentire delle condizioni di acquisizione (sensory gap), mentre l’utilizzo di modelli 3D può
garantire risultati più affidabili. Proponiamo un metodo di riconoscimento facciale che analizza modelli 3D ed è
invariante per espressioni, testandolo su un database che comprende i volti di 8 soggetti in 9 pose differenti.
1. Introduzione
Il controllo degli accessi ad aeree riservate, in luoghi di lavoro come le banche o in luoghi pubblici
come gli aeroporti, è fondamentale per garantire la sicurezza dei lavoratori e più in generale dei
cittadini. Si rende necessario, quindi, il ricorso a sistemi avanzati di identificazione biometrica,
basata sull’analisi di caratteristiche fisiche (o comportamentali) degli individui, come impronte
digitali o caratteristiche del volto. Il riconoscimento del volto, in particolare, è la modalità
raccomandata dall’ICAO (International Civil Aviation Organization) per i controlli all’imbarco in
aeroporto. Inoltre, il riconoscimento facciale è non invasivo, non richiede contatto con dispositivi
fisici, è a prova di dimenticanza (facile dimenticare una tessera o una password, difficile scordare a
casa il volto).
Con il termine riconoscimento facciale si sottintendono due diversi scenari applicativi:
l’autenticazione e l’identificazione. In entrambi gli scenari, il cuore del processo è lo stesso e
prevede la descrizione e il confronto dei modelli dei volti con tecniche opportune. Si possono,
identificare due fasi comuni: la prima corrisponde alla creazione di un database formato da
immagini e/o modelli 3D, solitamente detto galleria, contenente volti di persone conosciute; nella
seconda fase i volti delle stesse o di altre persone (detti probes) sono confrontati con quelli nella
galleria.
L’autenticazione deve accertare se la persona che chiede di accedere a una certa aerea è tra le
persone autorizzate all'accesso a quella particolare area. In questo caso il confronto avviene “uno a
uno”, in quanto il probe viene confrontato con il volto della galleria corrispondente a un'identità
precisa; l’autenticazione avviene quando la somiglianza tra due i volti supera un valore soglia
fissato.
L'identificazione serve a verificare se una persona appartiene o meno ad un gruppo, ad esempio ad
una lista di sospetti. In questo scenario il confronto è “uno a molti”, nel senso che il probe è
confrontato con i volti nella galleria per individuare quello più simile.
Le tecniche più diffuse di riconoscimento, in ambito accademico e commerciale, si basano
sull’analisi del dato 2D, cioè dell’immagine del volto acquisita tramite telecamere. Sebbene in
condizioni controllate le prestazioni di tali sistemi siano giudicate molto buone, l’affidabilità della
risposta è fortemente compromessa da condizioni avverse di illuminazione, scostamenti del
soggetto dalla posa frontale, cambi di espressione, occlusioni che interessano i landmarks utilizzati
(ad esempio le pupille, in caso di occhi chiusi o socchiusi; Busch et al. 2008, Razdan et al. 2007).
Inoltre, sistemi basati sul riconoscimento di immagini possono essere facilmente ingannati da
malintenzionati, tramite l’utilizzo di foto o video (Busch et al. 2008).
Per queste ragioni, la nostra attenzione si è rivolta all’utilizzo di dati 3D che integrino
l’informazione 2D, in modo da realizzare sistemi di sorveglianza più affidabili e che non richiedano
la presenza di personale umano. I vantaggi di utilizzare modelli 3D risiedeno nella minore
sensibilità alle condizioni di illuminazione, nell’indipendenza dalla posa, e nella capacità di fornire
informazioni su caratteristiche fondamentali della superficie del volto, come ad esempio la
curvatura (Bowyer et al. 2006).
I primi lavori sul riconoscimento facciale da modelli 3D risalgono ai primi anni ’90, ma solo dopo il
2000 il numero di lavori scientifici sull'argomento aumenta considerevolmente, come pure
diventano significativi il numero e la varietà di volti usati per le verifiche sperimentali: da dataset
aventi meno 100 modelli si è passati al Face Recognition Grand Challenge benchmark, composto da
oltre 4000 modelli, corrispondenti a più di 400 persone in pose ed espressioni sostanzialmente
differenti.
La maggior parte delle tecniche di riconoscimento facciale 3D è basata sull’utilizzo di algoritmi ICP
(Iterative Closest Point) sui modelli geometrici che rappresentano le superfici dei volti; le tecniche
ICP sono applicate all’intero volto o a sottoparti, eventualmente sovrapposte.
Molti lavori in letteratura concordano sulle potenzialità di approcci multimodali che integrino
l’informazione 2D e 3D (Bowyer et al. 2006). La maggior parte delle proposte si limita a combinare
a posteriori il contributo delle due modalità, ad esempio realizzando la fusione score-level, ossia
sommando le distanze pesate ottenute confrontando, in due fasi distinte, le immagini 2D e i modelli
3D, oppure realizzando la fusione feature-level, definendo cioè un vettore di features in cui una
parte è relativa a caratteristiche 2D e una parte a caratteristiche 3D.
2. Obiettivi
In questo lavoro vengono presentate parte delle metodologie sviluppate e dei risultati ottenuti nel
corso di una collaborazione tra IMATI-CNR (sezione di Genova) ed Elsag-Datamat, all’interno del
progetto “Multi-Trust”. Lo scopo del lavoro era indagare le potenzialità del riconoscimento facciale
con tecniche 3D per il controllo degli accessi, in relazione alle prestazioni garantite da sistemi 2D.
Ulteriori dettagli si trovano in (Giorgi et al. 2009).
Gli obiettivi del lavoro possono essere riassunti in:
o individuazione e simulazione delle problematiche del riconoscimento facciale 2D e 3D;
o sviluppo di metodi di riconoscimento 3D affidabili e robusti;
o validazione dei metodi proposti, in confronto a soluzioni esistenti.
L’analisi e la simulazione degli scenari sono due passi fondamentali per individuare le difficoltà a
cui il sistema deve rispondere, e sviluppare quindi soluzioni affidabili e robuste. Il primo obiettivo
ha dunque richiesto l’analisi preliminare delle possibili situazioni corrispondenti a scenari
applicativi reali, come cambi di espressione o di posizione della testa nei soggetti controllati,
variazioni nelle condizioni di illuminazione dell’ambiente, effetti dovuti al trascorrere del tempo tra
la fase di acquisizione dei volti in galleria e l’effettivo confronto con il probe acquisito in fase di
controllo. È stato quindi creato un database di volti in grado di simulare le situazioni sopra descritte,
da utilizzare per la validazione delle tecniche proposte.
Il secondo obiettivo richiede un’analisi dello stato dell’arte, per individuare tecniche efficaci e
direzioni promettenti. Lo studio della letteratura ha rivelato che l’inconveniente principale di molti
dei metodi esistenti è presupporre che il volto umano sia un oggetto rigido, mentre questo è un
assunto generalmente falso: i cambi di espressione deformano il volto, che non risulta mai in una
posa perfettamente neutra. Siamo quindi partiti dal metodo in (Bronstein et al. 2005) per la
costruzione di modelli invarianti per isometrie (e quindi per cambi di espressione) e abbiamo
apportato delle modifiche per rendere il metodo più efficace ed efficiente.
Infine, abbiamo validato i risultati del metodo 3D da noi sviluppato confrontandoli con le
prestazioni di COGNITEC, noto sistema commerciale per il riconoscimento facciale.
2
3. Materiali e Metodi
3.1: Creazione del database
Un database di modelli 3D di volti umani è stato acquisito mediante l’impiego del “Non-contact 3D
digitizer VIVID 910” della Konica-Minolta, in dotazione all’IMATI-CNR di Genova. Si tratta di
uno scanner tridimensionale che usa come metodo di scansione uno specchio galvanometrico ad
alta precisione. E’ stata definita una configurazione standard dei parametri della macchina da
utilizzare per le acquisizioni, in modo da ottenere dati omogenei dal punto di vista della qualità e
della modalità di acquisizione, e da rispettare alcuni requisiti specifici. Si richiede infatti che
l'acquisizione dei dati avvenga mediante un'unica scansione; la distanza di scansione sia intorno ai
60 cm (tra 50 e 100 cm); l'output prodotto presenti almeno 100 punti/pixel per distanza
interpupillare; l'output offra la massima qualità possibile compatibile con le richieste precedenti.
Pertanto è stato deciso di utilizzare l'ottica MIDDLE (f=14mm) a una distanza di circa 80 cm dal
soggetto e di applicare come unico filtro sui dati il cosiddetto “Fill holes”.
La sperimentazione prevede l'analisi di modelli di volto con caratteristiche eterogenee dal punto di
vista dei problemi tipici del riconoscimento facciale. A questo scopo, i soggetti sono stati acquisiti
in differenti pose, espressioni e condizioni di illuminazione, e a distanza di intervalli di tempo, in
modo da simulare specifici scenari e testare i limiti ed i pregi dei metodi di analisi impiegati. Sono
state quindi effettuate varie sessioni di acquisizione, ed è stato costruito un database da utilizzare
nella fase di testing. Ciascuna scansione ha richiesto 2.5 secondi per soggetto, per ottenere
immagini 640x480; è prevista la collaborazione del soggetto.
In una prima sessione di scansioni, è stato costruito un set S1 che ha coinvolto 8 persone, per
ciascuna delle quali sono state considerate 4 diverse pose (per un totale di 32 modelli). Le pose
prevedono una rotazione della testa di 45 gradi. In particolare, per ciascun soggetto sono state
scansionate le seguenti 4 pose:
o posa frontale, espressione neutra;
o volto rivolto verso l'alto (max 15 gradi), espressione neutra;
o volto rivolto verso il basso (max 15 gradi), espressione neutra;
o volto rivolto verso destra (max 15 gradi), espressione neutra.
Questa prima sessione di scansioni fornisce un primo campione rappresentativo di situazioni che
possono verificarsi nello scenario applicativo di interesse, legato al controllo degli accessi in aree
riservate. Per simulare poi ulteriori situazioni che possono presentarsi in situazioni reali, abbiamo
costruito un secondo set di modelli S2, in cui intervengono condizioni avverse al riconoscimento, sia
con tecniche 2D che 3D. In particolare, abbiamo scansionato le stesse 8 persone del set S1, ma con 5
diverse pose che includono sia espressioni differenti (problema riconosciuto in letteratura per i
metodi 3D) sia condizioni di illuminazione estreme (che possono creare problemi a tecniche 2D).
Le caratteristiche del set S2 sono quindi le seguenti:
o posa frontale, espressione neutra, illuminazione centrale + laterale;
o posa frontale, occhi rivolti verso il basso, illuminazione centrale + laterale;
o posa frontale, sorriso, illuminazione centrale + laterale;
o posa frontale, espressione a scelta del soggetto (non neutra), illuminazione centrale +
laterale;
o posa frontale, espressione neutra, illuminazione fortemente laterale.
Il dataset S utilizzato per la sperimentazione finale è costituito dall'unione di S1 e S2, per un totale di
72 modelli (8 soggetti in 9 pose differenti). Oltre alle variabili discusse in precedenza (variazioni di
posa, espressione, illuminazione), l'aver acquisito modelli degli stessi soggetti in due diversi
momenti permette di simulare anche lo scenario in cui il riconoscimento deve avvenire a distanza di
tempo, cioè tra un volto appena acquisito e quello memorizzato in precedenza in un database.
Per ciascun soggetto in S sono stati memorizzati nel database sia l’immagine 2D sia il modello 3D.
Un esempio è mostrato in Figura 1.
3
Figura 1
I dati grezzi generati dallo scanner laser consistono in matrici di punti 640x480. Ad ogni punto
corrisponde una tripla di coordinate (x,y,z) ed un colore. In altre parole, la matrice consiste nella
fusione tra i dati spaziali e una tessitura. I dati grezzi generati dallo scanner (file di formato
proprietario cdm) sono stati quindi elaborati al fine di produrre una triangolazione rappresentante la
superficie del volto.
A questo scopo è stato implementato il software “cam2trimesh”. Cam2trimesh carica il file cdm e
costruisce una triangolazione di Delaunay nel piano dei punti validi dell'immagine, ossia dei pixel a
cui corrisponde una distanza rilevata con successo. Successivamente, i vertici della triangolazione
vengono riportati nelle loro posizioni originali e si genera pertanto un modello 2.5D. In questo
modo le regioni in cui non e' stato possibile acquisire dati validi (per luce riflessa, capelli, o
quant'altro) sono riempite con triangoli che interpolano linearmente i dati validi. Chiaramente,
questa soluzione produce dati artificiosi, qualora la posa del volto sia molto diversa da quella
frontale. Cam2trimesh permette anche di specificare una finestra di dati da utilizzare per la
creazione della triangolazione. Questa possibilità può essere sfruttata al fine di inquadrare il volto, e
quindi di tagliare fuori eventuali porzioni di busto o di parete.
Il riconoscimento 3D impone requisiti particolari relativamente alle superfici poligonali dei volti da
confrontare, ovvero continuità, bordo non frastagliato, posa frontale. E' stato perciò necessario
sviluppare un sistema per l'elaborazione delle triangolazioni grezze al fine di estrarre un modello
del volto “tipo maschera” con le caratteristiche sopra elencate. A questo scopo è stato adattato un
software chiamato "posenormalizer" (Ter Haar et al. 2007) sviluppato da Frank Ter Haar
dell'Università di Utrecht (Olanda) per la cosiddetta pose normalization dei volti 3D, ossia per il
calcolo di una matrice di trasformazione che porti il volto ad essere rivolto verso la direzione Z del
proprio sistema di coordinate. La matrice calcolata, inoltre, induce una traslazione del modello in
modo che la punta del naso sia posizionata nell'origine. Il calcolo della matrice è completamente
automatico ed è basato sul metodo “best-fitting” rispetto a un modello di volto universale (Blanz et
al. 2005) prodotto da Volker Blanz del Max Plank Institut fur Informatik (Germania).
Potendo assumere la posa frontale del soggetto, è stato possibile implementare un ulteriore software
chiamato “geocrop” per la conversione di triangolazioni grezze in maschere da utilizzare per il
confronto 3D-3D. Geocrop carica la triangolazione e la matrice di rototraslazione prodotta con il
software precedentemente descritto. Dopo aver trasformato la triangolazione in input in base alla
matrice, essa viene ritagliata attraverso una circonferenza geodetica centrata sulla punta del naso e
di raggio pari a 10 cm. Sulla superficie ritagliata viene effettuata una riduzione del rumore tramite
filtraggio Laplaciano.
Il software per la preparazione dei dati è stato realizzato su piattaforma MS Windows, in ambiente
Visual C++ 2005 Express Edition, facendo uso delle SDK rilasciate da Konica-Minolta per il
trattamento dei file generati dallo scanner e delle API JMeshLib (http://jmeshlib.sourceforge.net) e
trimesh2 (http://www.cs.princeton.edu/gfx/proj/trimesh2/) per il trattamento delle triangolazioni.
Le diverse fasi di preparazione dei dati sono illustrate in Figura 2: dalla nuvola di punti alla
triangolazione (1), al modello in posa frontale (2), alla maschera finale (3).
4
Figura 2
3.2: Descrizione e confronto di modelli di volti 3D
Il problema della descrizione e confronto di volti 3D soggetti a deformazioni per cambi di
espressione è affrontato in (Elbaz et al. 2003, Bronstein et al. 2005). L’idea alla base del metodo è
quella di generare, a partire da un modello facciale originale, un nuovo modello che sia invariante
rispetto alle espressioni. L’ipotesi è che la distanza geodetica (cioè la lunghezza del cammino più
breve tra due punti sulla superficie del volto) tra punti del viso rimane pressoché invariata nei cambi
di espressione. Il nuovo modello è quindi generato tramite un'immersione regolare isometrica della
superficie nello spazio euclideo, basata sul calcolo delle distanze geodetiche tra punti del volto e su
un algoritmo MDS (Multi-Dimensional Scaling).
In sintesi, gli algoritmi MDS prendono in input una matrice di distanze tra oggetti, e calcolano delle
nuove coordinate per gli oggetti in uno spazio euclideo, tali che le distanze euclidee tra i nuovi punti
approssimino in maniera ottimale le distanze originali tra gli oggetti. Nel nostro caso, a partire da
una matrice di distanze geodetiche fra punti del volto, si crea un nuovo modello nello spazio
euclideo tridimensionale (immersione regolare), tale che le distanze euclidee tra i punti
dell’immersione approssimano in maniera ottimale le distanze geodetiche tra i punti originali.
Poiché i cambi di espressione non modificano le distanze geodetiche, modelli dello stesso volto con
diverse espressioni forniranno pressoché lo stesso input all’algoritmo MDS, che quindi restituirà
immersioni pressoché uguali nello spazio euclideo. Questo permette di utilizzare metodi di
confronto pensati per oggetti rigidi per confrontare modelli soggetti a deformazioni come quelle
indotte dalle espressioni.
La Figura 3 mostra un volto con tre espressioni differenti e le immersioni corrispondenti.
Figura 3
La costruzione dell'immersione isometrica prevede quindi due passi principali:
o semplificazione uniforme del modello M in input a k punti, e calcolo della matrice kxk G
delle distanze geodetiche tra i k punti: G = (gij)i,j=1,…,k con gij la distanza geodetica tra i punti
pi, pj di M;
o calcolo dell’immersione E di M tramite MDS, partendo dalla coppia (M,G) e utilizzando uno
schema iterativo rapido.
Rispetto allo stato dell'arte ed implementazioni sia commerciali che freeware, il modulo da noi
proposto include come elementi distintivi:
o due metodi per il calcolo delle distanze geodetiche: algoritmo di Dijkstra (Dijkstra 1959) e
fast marching (Sethian 1996);
o il calcolo ottimale del MDS, dove le matrici impiegate e le relative fattorizzazioni sono
precalcolate formalmente una sola volta ed utilizzate per l'intero database di modelli;
supponendo di utilizzare k punti per il calcolo dell'immersione di ciascun modello, il modulo
utilizza O(k2) occupazioni di memoria per l'intero database, indipendentemente dal numero
dei suoi elementi, e O(k) per ciascun confronto.
5
A dispetto dell’accuratezza e del dettaglio delle fasi di acquisizione, processing e immersione, in
(Elbaz et al. 2003) la fase di confronto riceve scarsa attenzione: gli autori sostengono che qualsiasi
metodo di confronto tra oggetti rigidi possa funzionare, ad esempio i momenti geometrici in (Elad
et al. 2001). Questa scelta contrasta con l’idea che c’è in letteratura che i momenti geometrici siano
instabili e poco discriminanti; gli esperimenti da noi effettuati confermano questa ipotesi. La nostra
idea è che la parte valida e interessante del metodo basato su MDS sia appunto la costruzione
dell'immersione isometrica, che permette di gestire i cambiamenti del volto dovuti a cambi di
espressione più o meno visibili; al contrario la parte relativa al confronto di tali immersioni con
momenti geometrici non sembra essere particolarmente robusta, oltre che poco dettagliata.
La soluzione da noi trovata è quella di utilizzare le immersioni come input per il calcolo di un
descrittore più robusto: abbiamo quindi scelto le Spherical Harmonics (SH), da calcolare
direttamente sulle immersioni, in modo da combinare i vantaggi di entrambe le tecniche. Il calcolo
delle SH segue la descrizione originale in (Kazhdan et al. 2003) e utilizza l’implementazione
disponibile sul sito http://www.cs.jhu.edu/misha/. Il descrittore consiste in un vettore di
coefficienti, che corrispondono alle frequenze armoniche di funzioni sferiche definite sul modello.
In dettaglio, si considera un insieme di sfere concentriche centrate nel baricentro del modello, e su
ciascuna sfera si definisce una funzione reale. Ad ogni funzione viene associato un vettore di
numeri reali, che rappresentano i coefficienti della decomposizione in armoniche sferiche della
funzione. L’insieme dei vettori per ciascuna sfera dà luogo ad una matrice bi-dimensionale di
numeri reali, i cui elementi sono indicizzati dal raggio della sfera e dalla frequenza.
Il calcolo delle SH può essere riassunto nei seguenti punti:
o il baricentro del modello viene traslato nell'origine del sistema di riferimento del modello,
che viene scalato rispetto alla distanza media dei punti dal baricentro;
o il modello viene campionato inserendolo in una griglia tridimensionale; la griglia viene
decomposta in un insieme di sfere concentriche di raggio r variabile;
o ad ogni elemento della griglia viene associato il valore 1 se l'elemento interseca la superficie
del modello e 0 se l'elemento è vuoto;
o per ciascuna sfera, i valori associati alla griglia definiscono una funzione sferica fr; si ottiene
quindi un insieme di funzioni sferiche, indicizzate dal raggio r della sfera corrispondente;
o ogni funzione fr può essere decomposta in armoniche sferiche, cioè espressa come somma
di differenti frequenze; i coefficienti associati alle corrispondenti frequenze danno luogo ad
un vettore vr;
o l’insieme dei vettori vr associati ciascuna sfera dà luogo ad una matrice V.
La distanza tra due immersioni E1, E2 si calcola quindi come la norma L2 tra le matrici V1, V2
associate ai due modelli.
4. Risultati
In questa sezione vengono presentati i risultati ottenuti nell'ambito del riconoscimento facciale dal
metodo di confronto 3D descritto nella sezione precedente. Tali risultati sono confrontati con quelli
ottenuti dal software COGNITEC a disposizione di Elsag, impiegato in due diverse modalità: la
prima utilizza esclusivamente dati di tipo 2D, cioè le immagini dei volti, mentre la seconda impiega
sia il dato 2D sia il dato 3D ottenuto dalle scansioni. Il set S di dati utilizzato è composto da 72
facce (8 individui in 9 pose differenti), come descritto nella Sezione 3.1. Durante la fase
sperimentale è stato però osservato che il software COGNITEC non è riuscito a processare 4
immagini, mostrate in Figura 4, probabilmente poiché non è riuscito ad individuare le pupille dei
soggetti nella foto. Tali immagini sono quindi state rimosse dal database, insieme con i
corrispondenti dati 3D. I dati riportati in seguito si riferiscono quindi ad un database con un totale di
68 facce, in cui 4 degli 8 individui sono presenti con 9 diverse pose, mentre i restanti 4 con 8 pose.
6
Figura 4
Per ciascun metodo, è stata costruita una matrice di dissimilarità, in cui all'entrata (i,j) corrisponde
la valutazione della differenza tra la i-esima e la j-esima faccia. La valutazione della performance è
basata sull'analisi del grafico precision-recall, che mostra la precisione standard (riportata in
ordinata) rispetto alla funzione recall standard (riportata in ascissa). La precisione rappresenta la
percentuale di elementi rilevanti (veri positivi) tra gli elementi restituiti dal sistema, mentre la
funzione recall rappresenta la percentuale di elementi rilevanti (veri positivi) restituiti dal sistema
sul totale dei rilevanti. Questi parametri descrivono quindi l'abilità di un metodo nell'identificare i
modelli rilevanti (nel nostro caso le facce di uno stesso individuo in diverse pose o acquisizioni) e
allo stesso tempo ridurre i falsi positivi. Osserviamo che a performance migliori corrispondono
linee del grafico spostate verso l'alto e verso destra.
Il grafico in Figura 5 riporta i risultati ottenuti dal software COGNITEC nelle due modalità 2D e
2D+3D, e le curve relative alle SH calcolate sui modelli originali, sui modelli semplificati a 2000
vertici, e sulle immersioni ottenute tramite MDS.
Figura 5
Si può osservare che, sul database considerato, l'aggiunta dell'informazione 3D permette a
COGNITEC di ottenere risultati migliori rispetto all'utilizzo esclusivo dell'informazione 2D. La
sperimentazione delle SH su modelli con ordini di grandezza diversi per il numero dei vertici è
volta a verificare l'eventuale degrado delle performance al variare della risoluzione del modello, per
cercare il miglior compromesso possibile tra risultati e tempi di calcolo. Le prestazioni delle SH sui
modelli originali e sui modelli semplificati sono molto simili, a conferma della robustezza del
metodo rispetto alla risoluzione e al livello di dettaglio del modello. Il risultato migliore è ottenuto
calcolando le SH sulle immersioni isometriche. Tali immersioni sono infatti costruite per ottenere
invarianza rispetto a deformazioni del volto, dai piccoli movimenti dei muscoli facciali – è noto che
la posa del volto non è mai perfettamente neutra (Bronstein et al. 2005) – ai cambi di espressione
più evidenti. L'utilizzo combinato di un input invariante e di un metodo di confronto efficace
permette quindi di avere le prestazioni migliori. La Tabella 1 mostra il Verification Rate versus
0.1% Acceptance Rate.
7
Tabella 1
COGNITEC 2D
VR: 67.6%
COGNITEC 2D+3D
88.1%
SH embedded
91.6%
5. Conclusioni
Dall’analisi dei dati, emerge l’idea che il riconoscimento facciale 2D sia ormai maturo per garantire
ottimi risultati in condizioni controllate, ma abbia dei limiti intrinseci, legati alla perdita di
informazione nel passaggio da dati 3D a immagini 2D, ma soprattutto alle condizioni di
acquisizione delle immagini dei volti. Si è visto ad esempio che condizioni avverse di illuminazione
compromettono le performance di metodi basati su immagini, fino alla totale mancanza di una
risposta da parte del sistema.
L’analisi del dato 3D ha buone potenzialità per sopperire ai fallimenti dell’analisi 2D dovuti al gap
sensoriale, poiché dispone di informazioni più complete. Bisogna comunque notare che, se il
riconoscimento di volti da immagini ha una lunga storia e una vasta letteratura disponibile, è solo da
pochi anni che si è iniziato ad esplorare l’utilizzo di tecniche di riconoscimento 3D. Questo vuol
dire che c’è spazio per miglioramenti, legati sia all’efficienza che all’efficacia di tali tecniche.
In prospettiva, sistemi integrati 2D+3D promettono un sensibile miglioramento nelle procedure di
verifica automatica dell’identità per il controllo degli accessi. L’affidabilità sarà infatti maggiore in
caso di condizioni ambientali avverse al riconoscimento o in caso di utenti non collaborativi o
intenzionati ad ingannare i sistemi. L’impatto della ricerca sarà tanto maggiore quanto più le nuove
metodologie di riconoscimento saranno supportate da avanzamenti nei sistemi di acquisizione dei
dati, con sensori accurati, rapidi, e sicuri, e nei sistemi di protezione dei template biometrici.
Referenze
Blanz V.; Scherbaum K.; Seidel H.-P. Fitting a Morphable Model to 3D Scans of Faces. Proc. Int. Conf. on Computer
Vision ICCV, 2007.
Bowyer K.W.; Chang K.; Flynn P. A survey of approaches and challenges in 3D and multi-modal 3D+2D face
recognition. Computer Vision and Image Understanding, 2006 101(1) 1-15.
Bronstein A.M.; Bronstein M.M.; Kimmel.R. Three-dimensional face recognition. International Journal of Computer
Vision, 2005 64(1) 5-30.
Busch C.; Nouak A. 3D face recognition for unattended border control. Security and Management, 2008, 350-356,
CSREA Press.
Dijkstra E.W.. A note on two problems in connection with graphs. Numerical Mathematics, 1959 24(1) 269-271.
Elad M.; Tal A.; Ar S. Content based retrieval of VRML objects - An iterative and interactive approach. EG
Multimedia, 2001, 97-108.
Giorgi D.; Attene,M.; Patanè G.; Marini S.; Pizzi C.; Biasotti S.; Spagnuolo M; Falcidieno B.; Corvi M.; Usai L.;
Roncarolo L.; Garibotto G. A critical assessment of 2D and 3D face recognition algorithms. 6th IEEE International
Conference on Advanced Video and Signal Based Surveillance, 2009
Kazhdan M; Funkhouser T.; Rusinkiewicz S. Rotation invariant spherical harmonic representation of 3D shape
descriptors. Proc. EG Symposium on Geometry Processing, 2003,156–65.
Elbaz A.E.; Kimmel R. On bending invariant signatures for surfaces. IEEE Trans. on PAMI, 2003 25(10) 1285--1295
Razdan A.; Farin G.; Soo-Bae M.; Chaudhari M. State of 3D face biometrics for homeland security applications.
Handbooks in Information Systems, 2007, Vol. 2.
Sethian J.A. A Fast Marching Level Set Method for Monotonically Advancing Fronts. Proc. Nat. Acad. Sci., 1996 93(4)
1591—1595.
Ter Haar F.B.; Veltkamp R.C. A 3D Face Matching Framework. Technical Report UU-CS-2007-04.
Ringraziamenti: lavoro parzialmente supportato dal progetto EU FP7 FOCUS K3D e dal contratto di ricerca tra Elsag
e IMATI-CNR (Ge) su ”Multitrust: multi-biometry for applications to security”.
8