Visual information retrevial - the

Transcript

Visual information retrevial - the
Traduzione del testo “VISUAL INFORMATION RETRIEVAL”
DI Amarnath Gupta & Ramasi Jain
Tradotto da Giacomazzi Luca ®
[email protected]
web.fiscali.it/mastrosblindo
a proud memeber of “the-skulls” ©
Licenza Capsula®: se leggete questo documento e pensate che non sia utile, o la traduzione sia brutta e inefficiente
fottetevi pure, e continuate a leggerlo in inglese. Se volete diffondere questo documento, ne andrebbe della vostra
reputazione, oltre che della vostra verginita’ anale, in quanto appena il documento passera’ di mano verrete
irrimediabilmente fottuti da un montone delle Ande, geneticamente modificato, che risponde al nome di ATTILA III
che ha vissuto 10 anni in pura castita’ nei laboratori segreti delle suddette Ande. Fate bene i vostri conti
Copyrigt 2003 © by Giacomazzi Luca
Nel 1951, il ricercatore e uomo di businnes Calvin Moores conio’ il termine information retrieval
per descrivere il processo con cui un utente di un informazione puo’ convertire una richiesta di
informazione in una collezione di riferimenti utili. Moores si riferiva al recupero di documenti
testuali , ma la sua descrizione cattura quello che un sistema di information retrival deve fare. Qui
estenderemo questa nozione a risorse non testuali.
Si consideri una collezione di 500.000 video clips e un agenzia pubblicitaria che sta cercando la
giusta metrica per una nuova richiesta di un cliente “Find me a clip”, “ dove per due secondi una
macchina rossa passi lungo un hillside in un giorno luminoso, che scompaia quando la strada passa
dietro la collina. Ora immaginiamo di scrivere questa query usando un motore di ricerca testuale.
Per fare questo permutando le parole chiave per trovare il documento giusto diventa frustante.
Inoltre gli statements della query generano in molte persone immagini mentali simili , una specifica
testuale che identifichi sempre lo stesso video clip non e’ facile da formulare.
La difficoltà si presentano in parte xke’ e’ impossibile garantire il video annotator e la
pubblicazione dell’utente una query ad hoc usando espressioni simili per descriver un clip. C’e’
un'altra ragione piu’ profonda. L’informazione cercata e’ inerente al linguaggio figurato che a un
linguaggio testuale, e anche se potente, non e’ adeguata ad esprimere delle query per un processo di
retrieval efficiente.
Il ruolo emergente dei sistemi di Visual Information Retrieval (VIR) e’ di andare oltre ai descrittori
basati sul testo, per trarre, memorizzare e recuperare queste informazioni di “linguaggio figurato”
contenuti nei media visuali. La premessa base dietro i sistemi VIR e’ che immagini e video sono le
entita’ basi su cui ricercare, e gli utenti devono essere capaci di query il loro contenuto facilmente
come se ricercassero documenti testuali, senza annotazioni manuali. Queryng content-based
alphanumeric information e’ un esempio perfetto di un nuovo paradigmo descritto da H.Liebermann
del MIT media laboratori : “Fondamentalmente deve cambiare il modo con cui guardiamo ai
problemi a cui abbiamo guardato in passato. Deve darci un nuovo framework per pensare ai
problemi per il futuro… Quando esperti in differenti campi guardano con curiosita’ e ammirazione
ad ogni altro dominio, e cercano punti e prospettive in comune, risultano nuovi paradigmi”
Effettivamente il dominio di VIR hanno ereditatio i componenti di analisi della visione
computerizzata e la componente delle query dai sistemi di database, unendo discipline vecchie
dell’informatica : database managment e information retrieval systems e image procession e
computer vision.
Per introdurre le caratteristiche e le tecniche di VIR annunciamo tre questioni base:
•
•
•
Cosa costituisce il “contenuto informativo” di un immagine o di un video in un contesto
specifico di ogni applicazione?
Con quale significato un utente puo’ specificare una ricerca per un pezzo di informazione
Quanto e’ efficiente ed accurato il processo di retrieval
COS’E VISUAL INFORMATION?
Due tipi di informazione sono associati ad oggetti visuali (immagini o video): informazion
sull’oggetto, detti metadati, e informazioni contenute dentro l’oggetto dette caratteristiche visuali.
I metadati sono alfanumeriche e generalmente esprimibili come uno schema di un database
relazionale o object oriented. Le caratteristiche visuali dono derivcate attraverso processi
computazionali , tipicamente analisi di immagini, computer vision, e routines computazionali
geometriche , eseguite sugli oggetti visuali.
La caratteristiche piu’ comuni che possono essere calcolate sono basate sui valori dei pixel dei dati
grezz, e molti dei primi sistemi di database di immagini usanvano i pixel come base dei loro data
models. Questi sistemi possono rispondere a query del tipo:
•
•
•
trova tutte le immagini per cui dal 100-esimo al 200-esimo pixel sono arancioni, se
l’arancione ha dei valori (rosso 255, verde 130 e blu 0)
trova tutte le immagini che hanno lo stesso colore nela regione centrale , come una
particolare. La regione centrale puo’essere specificato da un sistema di coordinate, e
l’espressione “dello stesso colore” di solito e’ definito calcolando la distanza di colore. Una
variante della distanza euclidea e’ spesso usata per confrontare due valori di colore.
Trova tutte le immagini che sono versioni shiftate di questa immagine, in cui il massimo
spostamento consentito e D.
Se i requisti dell’utente sono soddisfatti con queste classi di query, la modellazione della struttura
dati per Visual iNformation e’ abbastanza semplice. In realta’un modello basato sui pixel soffre di
alcuni inconvenienti:
1. E’ molto sensibile al “rumore” e quindi una coppia di pixel rumorosi e’ sufficiente a scartare
un immagine candidata per le prime due query
2. Traslazioni e rotazioni non sono desiderate come proprieta’ di un immagine . Se un
immagine e’ ruotata non viene presa in considerazione dal terzo tipo di query
3. oltre al rumore anche le variazioni di luminosital e altre condizioni che affliggono i valori
dei pixel drasticamente danno risutlati non corretti per le query.
Queste limitazioni non sono per dire che un tale modello basato sui pixel sia inefficent. Si possono
ottenere segmentazioni di video significanto misurando le differenze fra pixel nel temo. Per
esempio un brusco cambiamento di scena puo’ essere modellato trovando alte discontinuità nella
proiezione temporale di differenze comulative di pixel fra i frames. Tuttavia, inf. Retrieval basato
solo sui valori dei pixels non e’ buono di per se stesso.
Ancora , consideriamo un database di immagini aeree in cui gli unici oggetti di interesse sono
edifici, veicoli a terra, velivoli,strade e terreni. Inoltre immaginiamo che un interprete umano
disegna rettangoli di contorno per ogni regione in un immagine in cui uno o piu di questi 5 tipi di
oggetti appaiono e etichetta le aree in accordo con gli oggetti contenuti. Ora abbiamo una specifica
precisa dell’informazione contenuta nell’immagine. Questa informazione puo’ essere direttamente
modellata da un database relazionale che mantinene la locazione (bounding box) di ogni tipo di
oggetto e a timestamp di ogni immagine. Con alcuni processi geometrici aggiuntivi possiamo
rispondere a queste query complesse.
•
•
•
C’e’ qualche locazione dove piu’ di 5 veicoli di terra sono vicini a edifici allocati nel mezzo
di un terreno in generale
C’e stato qualche variazione nella posizione dei veicoli volanti in un lasso di tempo??
Quale strada di approccio e’ stata usata dei veicoli nel passaggio di divesi giorni per
avvicinarsi agli aircrafts.
Mentre queste query sono espressive , la parte piu’ cruciale dell’information retrieval- estrazione di
informazioni- e’ fatto da un uso della conoscenzaa e esperienza umana nell’interpretazione
dell’immagine aerea. La ragione xke’ questo task richiede l’uomo e’ semplice: l’interpretazione
automatica di immagini aeree e’ tuttora un problema irrisolto. Dall’altra parte , se l’uomo estrae
l’informanzione utile , puo’ usare un sistema di database spaziale per organizzare e recupeare le
informazioni. In una vita reale un approccio del genera alla sorveglianza aerea e irreale. Per
un’applicazione militare, il territorio sotto sorveglianza e’ largo abbastanza per aver bisogno di
molte telecamere che riprendano. Tutte ste immagini occuperebbero un buono spazio, e ci sono
buone possibilita’ di errori di interpretazioni
Molte applicazioni per VIR cadono fra automated pixel oriented information models and fully
human assisted database schemes. Non richiedono pixel level queries, ne sono limitati a qualche
classe di oggetti. Per queste applicazioni “di mezzo”, l’informazione visuale puo’ essere definita in
termini di image-processing trasformations computer on the visual object.
Anche se sono possibili molte trasformazioni rendono caratteristiche visuali significanti, e qui
esporremo solo alcuni semplici esempi.
COLORE: Supponiamo tutte le immagini in una collezione siano colorate. Il colore e’ tipicamente
caratterizzato da due variabili: tonalita’ e saturazione. La tonalita’ denota lo spettro dei colori: la
saturazione per ogni tonalita’ data indica quanto grigio e’ aggiunto al colore puro. Assumiamo che
il sistema calcoli un istogramma 2d di tonalit’ e saturazione per ogni immagine, cosi’ rosso e rosa
occupano diversi scomparti nell’istogramma. Con questo calcolo , un utente puo’ chiedere le
seguenti query:
•
•
•
trovare tutte le immagini in cui piu’ del 30% dei pixel siano blu cielo e piu’ del 25% dei
pixels sono verde erba
Ordinare gli insiemi di questa immagine in ordine dercrescente per trovare i 5 colori
dominanti. E trovare quelle con gli stessi colori dominanti
Misurare la distanza dei colori fra due immagini calcolando prima la differenza fra
istogrammi e la somma delle differenze su tutti i bins. Trovare tutte le immagini con la
distanza di colore D di questa immagine
COLOR COMPOSITION: Calcolare l’istogramma dei colori, per ogni immagine, come prima. Poi
spezzare l’immagine in 4 quadranti e calcolare per ognuno di essi l’istogramma. Continuare questa
procedura fino a quadrati 16*16 pixels. Il risultato e’ una struttura dati detta quadtree di istogrammi
che e’ un astrazione astratta del grafo generale. Questa astrazione puo’ essere usata per fare altre
query come:
•
•
trovare tutte le immagini con piu’ del 20% di pixels rosso/arancio nel quadrato in alto a dx,
piu del 20% pixel gialli in alto a sx, e 30 % di pixels dal marrone al marrone scuro nella
meta’ inferiore dell’immagine
Trovare tutte le immagini con un red patch nel centro dell’immagine e con una pezza blu’
intorno ad essa
FORME: Assumer la collezione di sole clip art. Di solito sono composte di colori puri(senza grigi,
solo tonalita’). Segmentiamo ogni immagine in un numero di regioni colroeate in modo che ogni
regione connetta un insieme di punti che hanno lo stesso colore puro. Per ogni segmento, si
calcolino 4 proprieta: colore , area ,elongation (rapporto del quadrato del perimetro e l’area) e
centralità (distanza dal centroide della regione dal centro dell’immagine normalizzata dalla
lunghezza dell’immagine)
Inoltre ogni immagine puo’ essere astratta come una lista di segmenti, ognuno con queste quattro
proprieta’. Usando questa lista si possono ottenere le seguenti queries.
•
•
trovare tutte le immagini che hanno un quadrato bianco nel centro
Trovare tutte le immagini contenenti due cerchi blu e segmenti ellittici rossi chiusi al centro.
FACE RETRIEVAL
Un VIR famoso e’ quello di ricerca delle facce sviluppato al MIT. Il sistema manipola
geometricamente ogni faccia data in input in modo che sia su uno stesso sistema di coordinate. I
ricercatori provarono il loro sistema con un gran numero di queste facce calcolando 20
caratteristiche rappresentando ogni faccia umana con un certo grado di dettaglio. Anche se queste
caratteristiche non corrispondono a parti fisiche significative della faccia (come occhi, naso, bocca )
raccolgono abbastanza informazioni matematiche per trovare facce simili con buona precisione.
Lo scopo di queste trasformazioni di immagine e’ di astrarre un insieme di proprieta’ dagli oggetti
visuali sufficienti da permettere che siano interrogate con una query. Si spera che servano per
estrarre livelli alti di informazione che sono iu’ robusti , con un significato piu’ intuitivo , e piu’
strutturati rispetto a bit grezzi. Non inaspettatamente se la trasformazione aumenata il significato ,
diventa difficile automatizzare queste operazioni. Per esempio, nel face retrieval, solo i systems
designer necessitano di training per fare retrival effettivo. Nei database di immagini mediche ,
l’estrazione completamente automatizzata e’ un problema di ricerca. L’esperienza generale e’ che
l’analisi totalmente automatica lavora bene su domini piccoli e controllati ed e’ molto intensiva per
via dei calcolo. Inoltre controllare l’imput in ogni database non e’ molto pratico.
Muovendosi dalle immagini al video si aggiungono altri ordini di complessita’. Molti ricercatori e
sviluppi commerciale prendono il seguente approccio: considerano il video clip come un gran
numero di immagini (frames) con un progressivo variare del contenuto dell’ immagine . Da questa
sequenza, trovare i frames a cui corrisponde una transizione significnate del contenuto
dell’immagine. I segmenti del video fra queste due transizioni sono detti shots. Usando alcune
strategie di campionamento per estrarre alcuni frammenti chiave da questi shots. Trattiamo ogni key
frame come un immagine su cui fare lo stesso processo che puo’ essere fatto sulle altri immagini.
Ma questo approccio non fa buon uso delli informazione temporale e del movimento. I video
contengono tre tipo di informazioni sul movimento:
• una dovuta ai movimenti dell’oggetto dentro la scena
• una dovuta ai movimenti della camera
• una dovuta a fase di post processing come image warping
Alcuni sistemi usano la codifica del movimento nella compressione del video (MPEG) per estrarre
le informazioni sul movimento. Questi sistemi lavorano bene per movimenti di oggetti isolati nella
scena. Alcuni sistemi scartano l’intero problema dell’estrazione di infrmazioni da i video e
assumono che siano disponibili descrizioni simboliche delle sequenze di immagini. Questi sistemi
trattano video information come un problema di ricerca in un database , per proprieta’ spazio-
temporali di oggetti rigidi. Idealmente un tale sistema deve integrare tutti i pezzi differenti entro un
framework singolo, ma non siamo ancora arrivati a questo punto.
SPECIFICARE UNA QUERY PER VIR
L’intento primario di una query visuale deve catturare l’immagine mentale dell’utente di una
specifica figura o immagine video. Uno sitle di ricerca, che si evolve da approcci tradizionali, ha
sviluppato sia le query testuali sia quelle grafiche. Un linguaggio per query testuali come
PICQUERY+ e’ stato costruito per “comporre” una descrizione visuale con attributi testuali
specifici e operatori relazioni spaziali, temporali, evoluzionarie. In un linguaggio a query visuale
l’utente visualizza icone di oggetto per specificare la locazione, orientamento e dimensione degli
oggetti dentro l’immagine desiderata.
Image information sistems recentemente sviluppato si appoggiano di piu’ ad un paradigma queryby-exemple. . Ci sono due differenti modi per trovare un esempio. Nel primo modo l’esempio e’
una figura , l’utente specifica un'altra immagine oppure ne disegna una . Alcuni sistemi recenti
inoltre permettono agli utenti di raffinare le loro query , lanciando una nuova query oppure
modificando un immagine risultante con un processing tool per le immagini per specificare criteri
addizionali che l’immagine da recuperare deve soddisfare. Alcune operazioni possono includere il
cancellamento di parte dell’immagine , cambiando il livello di luominosita’, o dipingendo una parte
dell’immagine con un certo colore. Un altro tipo di query raffinament coinvolge il cambiamento dei
pesi relativi delle caratteristiche visuali, e il sistema riordina i risultati precedenti secondo i nuovi
pesi.
La specifica delle query e’ piu’ complessa per i video. Con il grado attuale di sviluppo , i sistemi
sono piu’ inerenti all’individuazione delle transizioni o svillupano l’algoritmo giusto per
l’estrazione dei keyframes piuttosto che alla realizzazione delle query video. Questi sistemi
tipicamente offrono semplici video queries come per esempio:
•
•
•
•
trovare una collezione video con keyframe come un immagine data
Ordinare i clips in una collezione video in ordine di similarita’ con un video clip dato, in cui
i criteri di somiglianza possono essere specificati e alterati impostando e aggiustando
parametri visuali e di movimento mostrati all’utente
Indicare il video clip dato al frame che e’ uguale ad un immagine specificata
Indicare il video clip al frame che che ha la piu’ alta somiglianza di frame con una query
video data.
La maggior parte dei sistemi VIR correnti sono limitati nei tipi di query che possono fare. Lo
sviluppo di un linguaggio completo per i beni visivi e’ un compito difficile. Tuttavia , la specifica
delle query per l’informazione visuale non deve essere fatta esclusivamente con un esempio o con
un paradigmo basato sulla specifica ma attraverso una collezione di tools differenti che insieme
servono come un “query lenguage” per VIR. Tali tool sono:
Un image-processing tool: Un tool che iterattivamente segmenta l’immagine o modifica le
proprietà di una regione locale dell’immagine. Dovrebbe essere uato sia durante il processo di
inserimento dell’immagine per permettere l’analisi dell’immagine, e durante l’espressione della
query per esprimere condizioni di ricerca su regioni specifiche dell’ immagine.
Un tool di manipolazione delle caratteristiche dello spazio: un tool che permetta una miglior
specifica delle condizioni di ricerca sulle caratteristiche di un immagine anziché sopra un'immagine.
Le queries basate su istogrammi sono un esempio sono un esempio di questa classe di queries. Piu
in generale , un tal tool permetterebbe all'utente di esplorare lo spazio delle caratteristiche e
specificare una domanda di vicinanza ad una query. Una query potrebbe essere: “ se ogni immagine
e’ vista come un punto in uno spazio vettoriale a n dimensioni , trovare le x immagini con distanza
d dall’immagine data “ Mentre molti dei sistemi correnti supportano questo tipo di query , loro
eseguono ciecamente e non permettono all’utente di navigare iterattivamente nello spazio delle
caratteristiche e modificare le condizioni della uqery basate su questa iterazione.
Un object specification tool: Un tool che risolve il conflitto potenziale fra query che gardano con
condizioni di ricerca sulle immagini e quelle che gardano le condizioni di ricerca su oggetti
individuabili sull’immagine. Per illustrare questa differenza , le tre immagini contenute in figura 5
sono molto diverse nella loro contenuto generale dell’ immagine ma contengono oggetti simili,dove
l’oggetto di interesse occupa solo una parte dell’immagine. Lo stesso e’ vero per i video : un
oggetto per una query deve poter essere specificato analizzando la seqenza di imagini attraverso
motion grouping.
Un measurement specification tool: un tool da utilizzare in tutti i domini in cui la dimensione degli
oggetti o di regioni in un immagine sono un argomento importante. Un tale tool deve permettere
all’utente di fare misure on – line e prevedere condizioni di tolleranza sulle region della query.
Inoltre deve permettere all’utente di recuperare diverse versioni zoomate della stessa immagine
Un tool di classificazione: Un tool che permetta all’utente di fare operazioni di raggruppamento su
oggetti visuali attraverso la specifica di un criterio di raggruppamento su una o piu’ caratteristiche
di interesse.
Un tool di adattamento spaziale:un tool che permetta all’utente di specificare queries locationsensitive e muovere gli oggetti della query denotati dall’ object specification tool di posizionarli in
un posto di interesse. Inoltre deve permettere se l’utente di posizionare la sensibilita’ della
locazione dell’oggetto assoluta o relativa e permettere query che includano area range restrictionche
possono essere imposte sulle regioni dell’immagine, o che menzionino combinazioni booleane di
attributi spaziali.
Temporal arrangment tool: tool per i video che specifica eventi temporali come condizioni di
ricerca. Non ci si riferisce a eventi semantici ma a cammini di cambiamento di oggetti e immagini.
F.e. in una collezione video una query puo’ richiedere: “ trova tutti i clips in cui un frreze shot e’
seguito in un salto in una scena dinamica” Questo tool deve lavorare insieme a image motion
descriptors e video segmentation primitives cosi’ l’utente puo’ specificare le condizioni di ricerca
su cammini temporali sulle transizioni di immagine e di oggetti
Un tool di annotazione: un tool che allevia uno delle maggiori limitazioni sui sistemi exemplebased che gli utenti possono conoscere esattamente cosa stanno cercando per iniziare una query.
Idealmente tale tool dovrebbe avere capacita’ simili a un text processing engine. Tuttavia deve
permettre differenti livelli di annotazione per essere associati ad oggetti o a regioni dentro un
gruppo di immagini. Le annotazioni sono necessari per i video per fare annotazioni a livello storia.
Data definition tool: un tool che permetta alle applicazioni in cui l’utente ha un insieme di modelli
di caratterizzare le proprieta’ dell’immagine. Gli altri compiti di tale tool e’ di supportare un
ontologia e esempi di parole per casi in cui la descrizione visuale con uno schema diventa troppo
complessa da creare..Un esempio puo’ essere creare un inisme di esempi di immagini per la parola
“human” cosi’ che questi esempi possanop essere usati per iniziare una query sugli umani
CONFRONTARE VIR SYSTEMS
Nello stato corrente di sviluppo dei sistemi VIR affronta molti problemi caratterisitici di ogni
campo emergente. Negli ultimi anni sono stati proposti diversi tipi di sistemi VIR commerciali.
Questi sistemi differiscono nel dominio di applicazione, scelta delle caratteristiche di
visualizzazione tecniche impiegate per computing le caratteristiche visuali , e meccanismi di query
supportate. Come possiamo confrontare questi sistemi? Sfortunatamente non ci sono criteri diretti
da stabilire per valutare,testare e confrontare questi sistemi. Questa mancanza e’ dovuta in parte al
carattere soggettivo del dominio. E’ estremamente difficile impostare uno standard per classificare
un database di immagini assortite in termini della loro somiglianza ad un immagine data. Una
variazione significante puo’ essere osservata attraverso classificazioni prodotte da diversi utenti e
fra due assegnamenti dello stesso utente a tempi differenti. Malgrado questi ostacoli , e’ importante
sviluppare un’ insieme di criteri generali per assegnare le relative performance dei sistemi VIR.
Goodness of retrieval. Questo giudizio approssimativamente corrisponde alle immagini mentali
dell’utente di cosa dovrebbe essere recuperato dal sistema per un data base di riferimento. Alcune
semplici misure sono riassunte attraverso l’iterazione dell’utente.
•
•
•
•
•
“Il sistema e’ buono xke’ querying con un esempio di giardino fiorito recupera 90% di
scene di esterni di cui 80% sono giardini fioriti” L’utente giudica la bonta’ del sistema
attraverso il numero di “correct” matches nei primi screenshots.
“Il colore e le texture del terzo risultatosono abbastanza giuste, ma la loro forma nel mezzo
non lo e’” Qui l’utente misura la dimensione e il grado di rilevanza per ogni risultato
rilevante
“Il risultato e’ scarso xke queste 3 rose dovrebbero essere piu’ in alto nella gerarchia
rispetto alla macchina o al bambino sul prato”. Il ciriterio e’ relative rank degli oggetti
rilevanti vs quello degli oggetti non rilevanti. Un sistema in cui per la stessa queryalcune
immagini rilevanti sono ordinate piu’ in basso delle immagini non rilevanti e’ giudicato
come un performance non buona rispetto ai sistemi che ordinano in modo giusto
“Come mai quell’immagine che ho visto nei promi due schermi non c’e’” Perche appare
quando riduco il peso dei colori? Perche’ no quando aumento il peso della texture”
L’utente in questo caso e’ passato dal modo di ricerca “image-browser” al modo di ricerca
“image locator”. Ora il criterio di correttezza e la deviazione da un ordinamento aspettato di
un immagine di riferimento e the incremental improvement achived per query refinement
operation.
“Non e’ chiaro quale combinazione di pesi puo’ recuperare quello che voglio. C’e un modo
per marcare i risultati che mi piacciono e non ed avere risultati migliori dal sistema”
L’utente richiede il meccanismo di relevance feedback, un meccanismo attraverso il quale
l’utente guarda alle risoposte prodotte dal sistema per una query, e cataloga i risultati con un
punteggio di rilevanza. Il sistema usa questi punteggi per modificare e ripetere la querym
aspettando che escano risultati con una piu’ alta rilevanza.
L’aspetto piu’ notevole in queste misure di massima e’ che il giudizio dell utente della “bonta’” e’
dato su la quantita’ di dati rilevanti sono recuperati. Molti dei sistemi correnti cercano di
minimizzare i risultati falsi negativi con un’ espansione dei falsi positivi. Un approccio bilanciato e
ottimizzato delle performance dei VIR non e’ ancora realta’
Effevtiveness. Se ci muoviamo da un sistema genearl pourpose ad uno piu’ specifico (applicato ad
un dominio specifico), le queries dell’utente diventano piu’ sofisticate e utili. Il criterio di
assegnamento inoltre cambia in ordine di misurare l’effficacia del recupero nel contesto specifico
del problema di applicazione. Basandosi sui application problems per cui noi abbiamo adattato
Virage Image Engine , offriamo diverse osservazioni sulla percezione e sulla realta’ dell’efficacia.
•
•
•
In molte applicazioni specifiche, il processo di estrazione di caratteristiche visuali e’ limitato
alle tecniche offerte di immane processing e computer vision. E non sono mai perfette.
Quindi, e’ necessario trattare l’efficacia del recupero, separatamente dagli algoritmi di
underlying image processing.. Tuttavia gli utenti raramente fanno distinzione , giudicando le
performance di sistema dai risultati di recupero , senza realzizzare che non ci sono algoritmi
per calcolare le caratteristiche che vogliono. Fare la distinzione e’ una parte importante
dell’educazione dell’utente.
Abbiamo trovato utile per l’utente stimare quanto i risultati potrebbero essere diversi dai
risultati dati assumendo che il sistema produca estrazioni perfette di caratteristiche. I risultati
dei recuperi basati sulla somiglianza non sono cosi’ sensibili ai piccoli errori dell’estrazione
delle caratteristiche.
Spesso, le caratteristiche critiche influenzano l’efficacia sono la scelta delle funzioni di
somiglianza e la selezione delle caratteristiche adeguate. In un’applicazione di trademark
search, selezionando una moment-based shape features provoca un drammatico aumento
dell’efficacia per l’utente.In un applicazione oftamologica , scegliere una funzione di
somiglianza fuzzy ha una differenza significante rispetto a una metrica di pesi euclidea. Fare
il sistema efficiente e’ un’ arte. Il merito reale di un sistema VIR e’ l’abilita’ di permettere
sufficiente estendibilita’e flessibilita’ che puo’ essere girata ad ogni applicazione per utente.