Visual information retrevial - the
Transcript
Visual information retrevial - the
Traduzione del testo “VISUAL INFORMATION RETRIEVAL” DI Amarnath Gupta & Ramasi Jain Tradotto da Giacomazzi Luca ® [email protected] web.fiscali.it/mastrosblindo a proud memeber of “the-skulls” © Licenza Capsula®: se leggete questo documento e pensate che non sia utile, o la traduzione sia brutta e inefficiente fottetevi pure, e continuate a leggerlo in inglese. Se volete diffondere questo documento, ne andrebbe della vostra reputazione, oltre che della vostra verginita’ anale, in quanto appena il documento passera’ di mano verrete irrimediabilmente fottuti da un montone delle Ande, geneticamente modificato, che risponde al nome di ATTILA III che ha vissuto 10 anni in pura castita’ nei laboratori segreti delle suddette Ande. Fate bene i vostri conti Copyrigt 2003 © by Giacomazzi Luca Nel 1951, il ricercatore e uomo di businnes Calvin Moores conio’ il termine information retrieval per descrivere il processo con cui un utente di un informazione puo’ convertire una richiesta di informazione in una collezione di riferimenti utili. Moores si riferiva al recupero di documenti testuali , ma la sua descrizione cattura quello che un sistema di information retrival deve fare. Qui estenderemo questa nozione a risorse non testuali. Si consideri una collezione di 500.000 video clips e un agenzia pubblicitaria che sta cercando la giusta metrica per una nuova richiesta di un cliente “Find me a clip”, “ dove per due secondi una macchina rossa passi lungo un hillside in un giorno luminoso, che scompaia quando la strada passa dietro la collina. Ora immaginiamo di scrivere questa query usando un motore di ricerca testuale. Per fare questo permutando le parole chiave per trovare il documento giusto diventa frustante. Inoltre gli statements della query generano in molte persone immagini mentali simili , una specifica testuale che identifichi sempre lo stesso video clip non e’ facile da formulare. La difficoltà si presentano in parte xke’ e’ impossibile garantire il video annotator e la pubblicazione dell’utente una query ad hoc usando espressioni simili per descriver un clip. C’e’ un'altra ragione piu’ profonda. L’informazione cercata e’ inerente al linguaggio figurato che a un linguaggio testuale, e anche se potente, non e’ adeguata ad esprimere delle query per un processo di retrieval efficiente. Il ruolo emergente dei sistemi di Visual Information Retrieval (VIR) e’ di andare oltre ai descrittori basati sul testo, per trarre, memorizzare e recuperare queste informazioni di “linguaggio figurato” contenuti nei media visuali. La premessa base dietro i sistemi VIR e’ che immagini e video sono le entita’ basi su cui ricercare, e gli utenti devono essere capaci di query il loro contenuto facilmente come se ricercassero documenti testuali, senza annotazioni manuali. Queryng content-based alphanumeric information e’ un esempio perfetto di un nuovo paradigmo descritto da H.Liebermann del MIT media laboratori : “Fondamentalmente deve cambiare il modo con cui guardiamo ai problemi a cui abbiamo guardato in passato. Deve darci un nuovo framework per pensare ai problemi per il futuro… Quando esperti in differenti campi guardano con curiosita’ e ammirazione ad ogni altro dominio, e cercano punti e prospettive in comune, risultano nuovi paradigmi” Effettivamente il dominio di VIR hanno ereditatio i componenti di analisi della visione computerizzata e la componente delle query dai sistemi di database, unendo discipline vecchie dell’informatica : database managment e information retrieval systems e image procession e computer vision. Per introdurre le caratteristiche e le tecniche di VIR annunciamo tre questioni base: • • • Cosa costituisce il “contenuto informativo” di un immagine o di un video in un contesto specifico di ogni applicazione? Con quale significato un utente puo’ specificare una ricerca per un pezzo di informazione Quanto e’ efficiente ed accurato il processo di retrieval COS’E VISUAL INFORMATION? Due tipi di informazione sono associati ad oggetti visuali (immagini o video): informazion sull’oggetto, detti metadati, e informazioni contenute dentro l’oggetto dette caratteristiche visuali. I metadati sono alfanumeriche e generalmente esprimibili come uno schema di un database relazionale o object oriented. Le caratteristiche visuali dono derivcate attraverso processi computazionali , tipicamente analisi di immagini, computer vision, e routines computazionali geometriche , eseguite sugli oggetti visuali. La caratteristiche piu’ comuni che possono essere calcolate sono basate sui valori dei pixel dei dati grezz, e molti dei primi sistemi di database di immagini usanvano i pixel come base dei loro data models. Questi sistemi possono rispondere a query del tipo: • • • trova tutte le immagini per cui dal 100-esimo al 200-esimo pixel sono arancioni, se l’arancione ha dei valori (rosso 255, verde 130 e blu 0) trova tutte le immagini che hanno lo stesso colore nela regione centrale , come una particolare. La regione centrale puo’essere specificato da un sistema di coordinate, e l’espressione “dello stesso colore” di solito e’ definito calcolando la distanza di colore. Una variante della distanza euclidea e’ spesso usata per confrontare due valori di colore. Trova tutte le immagini che sono versioni shiftate di questa immagine, in cui il massimo spostamento consentito e D. Se i requisti dell’utente sono soddisfatti con queste classi di query, la modellazione della struttura dati per Visual iNformation e’ abbastanza semplice. In realta’un modello basato sui pixel soffre di alcuni inconvenienti: 1. E’ molto sensibile al “rumore” e quindi una coppia di pixel rumorosi e’ sufficiente a scartare un immagine candidata per le prime due query 2. Traslazioni e rotazioni non sono desiderate come proprieta’ di un immagine . Se un immagine e’ ruotata non viene presa in considerazione dal terzo tipo di query 3. oltre al rumore anche le variazioni di luminosital e altre condizioni che affliggono i valori dei pixel drasticamente danno risutlati non corretti per le query. Queste limitazioni non sono per dire che un tale modello basato sui pixel sia inefficent. Si possono ottenere segmentazioni di video significanto misurando le differenze fra pixel nel temo. Per esempio un brusco cambiamento di scena puo’ essere modellato trovando alte discontinuità nella proiezione temporale di differenze comulative di pixel fra i frames. Tuttavia, inf. Retrieval basato solo sui valori dei pixels non e’ buono di per se stesso. Ancora , consideriamo un database di immagini aeree in cui gli unici oggetti di interesse sono edifici, veicoli a terra, velivoli,strade e terreni. Inoltre immaginiamo che un interprete umano disegna rettangoli di contorno per ogni regione in un immagine in cui uno o piu di questi 5 tipi di oggetti appaiono e etichetta le aree in accordo con gli oggetti contenuti. Ora abbiamo una specifica precisa dell’informazione contenuta nell’immagine. Questa informazione puo’ essere direttamente modellata da un database relazionale che mantinene la locazione (bounding box) di ogni tipo di oggetto e a timestamp di ogni immagine. Con alcuni processi geometrici aggiuntivi possiamo rispondere a queste query complesse. • • • C’e’ qualche locazione dove piu’ di 5 veicoli di terra sono vicini a edifici allocati nel mezzo di un terreno in generale C’e stato qualche variazione nella posizione dei veicoli volanti in un lasso di tempo?? Quale strada di approccio e’ stata usata dei veicoli nel passaggio di divesi giorni per avvicinarsi agli aircrafts. Mentre queste query sono espressive , la parte piu’ cruciale dell’information retrieval- estrazione di informazioni- e’ fatto da un uso della conoscenzaa e esperienza umana nell’interpretazione dell’immagine aerea. La ragione xke’ questo task richiede l’uomo e’ semplice: l’interpretazione automatica di immagini aeree e’ tuttora un problema irrisolto. Dall’altra parte , se l’uomo estrae l’informanzione utile , puo’ usare un sistema di database spaziale per organizzare e recupeare le informazioni. In una vita reale un approccio del genera alla sorveglianza aerea e irreale. Per un’applicazione militare, il territorio sotto sorveglianza e’ largo abbastanza per aver bisogno di molte telecamere che riprendano. Tutte ste immagini occuperebbero un buono spazio, e ci sono buone possibilita’ di errori di interpretazioni Molte applicazioni per VIR cadono fra automated pixel oriented information models and fully human assisted database schemes. Non richiedono pixel level queries, ne sono limitati a qualche classe di oggetti. Per queste applicazioni “di mezzo”, l’informazione visuale puo’ essere definita in termini di image-processing trasformations computer on the visual object. Anche se sono possibili molte trasformazioni rendono caratteristiche visuali significanti, e qui esporremo solo alcuni semplici esempi. COLORE: Supponiamo tutte le immagini in una collezione siano colorate. Il colore e’ tipicamente caratterizzato da due variabili: tonalita’ e saturazione. La tonalita’ denota lo spettro dei colori: la saturazione per ogni tonalita’ data indica quanto grigio e’ aggiunto al colore puro. Assumiamo che il sistema calcoli un istogramma 2d di tonalit’ e saturazione per ogni immagine, cosi’ rosso e rosa occupano diversi scomparti nell’istogramma. Con questo calcolo , un utente puo’ chiedere le seguenti query: • • • trovare tutte le immagini in cui piu’ del 30% dei pixel siano blu cielo e piu’ del 25% dei pixels sono verde erba Ordinare gli insiemi di questa immagine in ordine dercrescente per trovare i 5 colori dominanti. E trovare quelle con gli stessi colori dominanti Misurare la distanza dei colori fra due immagini calcolando prima la differenza fra istogrammi e la somma delle differenze su tutti i bins. Trovare tutte le immagini con la distanza di colore D di questa immagine COLOR COMPOSITION: Calcolare l’istogramma dei colori, per ogni immagine, come prima. Poi spezzare l’immagine in 4 quadranti e calcolare per ognuno di essi l’istogramma. Continuare questa procedura fino a quadrati 16*16 pixels. Il risultato e’ una struttura dati detta quadtree di istogrammi che e’ un astrazione astratta del grafo generale. Questa astrazione puo’ essere usata per fare altre query come: • • trovare tutte le immagini con piu’ del 20% di pixels rosso/arancio nel quadrato in alto a dx, piu del 20% pixel gialli in alto a sx, e 30 % di pixels dal marrone al marrone scuro nella meta’ inferiore dell’immagine Trovare tutte le immagini con un red patch nel centro dell’immagine e con una pezza blu’ intorno ad essa FORME: Assumer la collezione di sole clip art. Di solito sono composte di colori puri(senza grigi, solo tonalita’). Segmentiamo ogni immagine in un numero di regioni colroeate in modo che ogni regione connetta un insieme di punti che hanno lo stesso colore puro. Per ogni segmento, si calcolino 4 proprieta: colore , area ,elongation (rapporto del quadrato del perimetro e l’area) e centralità (distanza dal centroide della regione dal centro dell’immagine normalizzata dalla lunghezza dell’immagine) Inoltre ogni immagine puo’ essere astratta come una lista di segmenti, ognuno con queste quattro proprieta’. Usando questa lista si possono ottenere le seguenti queries. • • trovare tutte le immagini che hanno un quadrato bianco nel centro Trovare tutte le immagini contenenti due cerchi blu e segmenti ellittici rossi chiusi al centro. FACE RETRIEVAL Un VIR famoso e’ quello di ricerca delle facce sviluppato al MIT. Il sistema manipola geometricamente ogni faccia data in input in modo che sia su uno stesso sistema di coordinate. I ricercatori provarono il loro sistema con un gran numero di queste facce calcolando 20 caratteristiche rappresentando ogni faccia umana con un certo grado di dettaglio. Anche se queste caratteristiche non corrispondono a parti fisiche significative della faccia (come occhi, naso, bocca ) raccolgono abbastanza informazioni matematiche per trovare facce simili con buona precisione. Lo scopo di queste trasformazioni di immagine e’ di astrarre un insieme di proprieta’ dagli oggetti visuali sufficienti da permettere che siano interrogate con una query. Si spera che servano per estrarre livelli alti di informazione che sono iu’ robusti , con un significato piu’ intuitivo , e piu’ strutturati rispetto a bit grezzi. Non inaspettatamente se la trasformazione aumenata il significato , diventa difficile automatizzare queste operazioni. Per esempio, nel face retrieval, solo i systems designer necessitano di training per fare retrival effettivo. Nei database di immagini mediche , l’estrazione completamente automatizzata e’ un problema di ricerca. L’esperienza generale e’ che l’analisi totalmente automatica lavora bene su domini piccoli e controllati ed e’ molto intensiva per via dei calcolo. Inoltre controllare l’imput in ogni database non e’ molto pratico. Muovendosi dalle immagini al video si aggiungono altri ordini di complessita’. Molti ricercatori e sviluppi commerciale prendono il seguente approccio: considerano il video clip come un gran numero di immagini (frames) con un progressivo variare del contenuto dell’ immagine . Da questa sequenza, trovare i frames a cui corrisponde una transizione significnate del contenuto dell’immagine. I segmenti del video fra queste due transizioni sono detti shots. Usando alcune strategie di campionamento per estrarre alcuni frammenti chiave da questi shots. Trattiamo ogni key frame come un immagine su cui fare lo stesso processo che puo’ essere fatto sulle altri immagini. Ma questo approccio non fa buon uso delli informazione temporale e del movimento. I video contengono tre tipo di informazioni sul movimento: • una dovuta ai movimenti dell’oggetto dentro la scena • una dovuta ai movimenti della camera • una dovuta a fase di post processing come image warping Alcuni sistemi usano la codifica del movimento nella compressione del video (MPEG) per estrarre le informazioni sul movimento. Questi sistemi lavorano bene per movimenti di oggetti isolati nella scena. Alcuni sistemi scartano l’intero problema dell’estrazione di infrmazioni da i video e assumono che siano disponibili descrizioni simboliche delle sequenze di immagini. Questi sistemi trattano video information come un problema di ricerca in un database , per proprieta’ spazio- temporali di oggetti rigidi. Idealmente un tale sistema deve integrare tutti i pezzi differenti entro un framework singolo, ma non siamo ancora arrivati a questo punto. SPECIFICARE UNA QUERY PER VIR L’intento primario di una query visuale deve catturare l’immagine mentale dell’utente di una specifica figura o immagine video. Uno sitle di ricerca, che si evolve da approcci tradizionali, ha sviluppato sia le query testuali sia quelle grafiche. Un linguaggio per query testuali come PICQUERY+ e’ stato costruito per “comporre” una descrizione visuale con attributi testuali specifici e operatori relazioni spaziali, temporali, evoluzionarie. In un linguaggio a query visuale l’utente visualizza icone di oggetto per specificare la locazione, orientamento e dimensione degli oggetti dentro l’immagine desiderata. Image information sistems recentemente sviluppato si appoggiano di piu’ ad un paradigma queryby-exemple. . Ci sono due differenti modi per trovare un esempio. Nel primo modo l’esempio e’ una figura , l’utente specifica un'altra immagine oppure ne disegna una . Alcuni sistemi recenti inoltre permettono agli utenti di raffinare le loro query , lanciando una nuova query oppure modificando un immagine risultante con un processing tool per le immagini per specificare criteri addizionali che l’immagine da recuperare deve soddisfare. Alcune operazioni possono includere il cancellamento di parte dell’immagine , cambiando il livello di luominosita’, o dipingendo una parte dell’immagine con un certo colore. Un altro tipo di query raffinament coinvolge il cambiamento dei pesi relativi delle caratteristiche visuali, e il sistema riordina i risultati precedenti secondo i nuovi pesi. La specifica delle query e’ piu’ complessa per i video. Con il grado attuale di sviluppo , i sistemi sono piu’ inerenti all’individuazione delle transizioni o svillupano l’algoritmo giusto per l’estrazione dei keyframes piuttosto che alla realizzazione delle query video. Questi sistemi tipicamente offrono semplici video queries come per esempio: • • • • trovare una collezione video con keyframe come un immagine data Ordinare i clips in una collezione video in ordine di similarita’ con un video clip dato, in cui i criteri di somiglianza possono essere specificati e alterati impostando e aggiustando parametri visuali e di movimento mostrati all’utente Indicare il video clip dato al frame che e’ uguale ad un immagine specificata Indicare il video clip al frame che che ha la piu’ alta somiglianza di frame con una query video data. La maggior parte dei sistemi VIR correnti sono limitati nei tipi di query che possono fare. Lo sviluppo di un linguaggio completo per i beni visivi e’ un compito difficile. Tuttavia , la specifica delle query per l’informazione visuale non deve essere fatta esclusivamente con un esempio o con un paradigmo basato sulla specifica ma attraverso una collezione di tools differenti che insieme servono come un “query lenguage” per VIR. Tali tool sono: Un image-processing tool: Un tool che iterattivamente segmenta l’immagine o modifica le proprietà di una regione locale dell’immagine. Dovrebbe essere uato sia durante il processo di inserimento dell’immagine per permettere l’analisi dell’immagine, e durante l’espressione della query per esprimere condizioni di ricerca su regioni specifiche dell’ immagine. Un tool di manipolazione delle caratteristiche dello spazio: un tool che permetta una miglior specifica delle condizioni di ricerca sulle caratteristiche di un immagine anziché sopra un'immagine. Le queries basate su istogrammi sono un esempio sono un esempio di questa classe di queries. Piu in generale , un tal tool permetterebbe all'utente di esplorare lo spazio delle caratteristiche e specificare una domanda di vicinanza ad una query. Una query potrebbe essere: “ se ogni immagine e’ vista come un punto in uno spazio vettoriale a n dimensioni , trovare le x immagini con distanza d dall’immagine data “ Mentre molti dei sistemi correnti supportano questo tipo di query , loro eseguono ciecamente e non permettono all’utente di navigare iterattivamente nello spazio delle caratteristiche e modificare le condizioni della uqery basate su questa iterazione. Un object specification tool: Un tool che risolve il conflitto potenziale fra query che gardano con condizioni di ricerca sulle immagini e quelle che gardano le condizioni di ricerca su oggetti individuabili sull’immagine. Per illustrare questa differenza , le tre immagini contenute in figura 5 sono molto diverse nella loro contenuto generale dell’ immagine ma contengono oggetti simili,dove l’oggetto di interesse occupa solo una parte dell’immagine. Lo stesso e’ vero per i video : un oggetto per una query deve poter essere specificato analizzando la seqenza di imagini attraverso motion grouping. Un measurement specification tool: un tool da utilizzare in tutti i domini in cui la dimensione degli oggetti o di regioni in un immagine sono un argomento importante. Un tale tool deve permettere all’utente di fare misure on – line e prevedere condizioni di tolleranza sulle region della query. Inoltre deve permettere all’utente di recuperare diverse versioni zoomate della stessa immagine Un tool di classificazione: Un tool che permetta all’utente di fare operazioni di raggruppamento su oggetti visuali attraverso la specifica di un criterio di raggruppamento su una o piu’ caratteristiche di interesse. Un tool di adattamento spaziale:un tool che permetta all’utente di specificare queries locationsensitive e muovere gli oggetti della query denotati dall’ object specification tool di posizionarli in un posto di interesse. Inoltre deve permettere se l’utente di posizionare la sensibilita’ della locazione dell’oggetto assoluta o relativa e permettere query che includano area range restrictionche possono essere imposte sulle regioni dell’immagine, o che menzionino combinazioni booleane di attributi spaziali. Temporal arrangment tool: tool per i video che specifica eventi temporali come condizioni di ricerca. Non ci si riferisce a eventi semantici ma a cammini di cambiamento di oggetti e immagini. F.e. in una collezione video una query puo’ richiedere: “ trova tutti i clips in cui un frreze shot e’ seguito in un salto in una scena dinamica” Questo tool deve lavorare insieme a image motion descriptors e video segmentation primitives cosi’ l’utente puo’ specificare le condizioni di ricerca su cammini temporali sulle transizioni di immagine e di oggetti Un tool di annotazione: un tool che allevia uno delle maggiori limitazioni sui sistemi exemplebased che gli utenti possono conoscere esattamente cosa stanno cercando per iniziare una query. Idealmente tale tool dovrebbe avere capacita’ simili a un text processing engine. Tuttavia deve permettre differenti livelli di annotazione per essere associati ad oggetti o a regioni dentro un gruppo di immagini. Le annotazioni sono necessari per i video per fare annotazioni a livello storia. Data definition tool: un tool che permetta alle applicazioni in cui l’utente ha un insieme di modelli di caratterizzare le proprieta’ dell’immagine. Gli altri compiti di tale tool e’ di supportare un ontologia e esempi di parole per casi in cui la descrizione visuale con uno schema diventa troppo complessa da creare..Un esempio puo’ essere creare un inisme di esempi di immagini per la parola “human” cosi’ che questi esempi possanop essere usati per iniziare una query sugli umani CONFRONTARE VIR SYSTEMS Nello stato corrente di sviluppo dei sistemi VIR affronta molti problemi caratterisitici di ogni campo emergente. Negli ultimi anni sono stati proposti diversi tipi di sistemi VIR commerciali. Questi sistemi differiscono nel dominio di applicazione, scelta delle caratteristiche di visualizzazione tecniche impiegate per computing le caratteristiche visuali , e meccanismi di query supportate. Come possiamo confrontare questi sistemi? Sfortunatamente non ci sono criteri diretti da stabilire per valutare,testare e confrontare questi sistemi. Questa mancanza e’ dovuta in parte al carattere soggettivo del dominio. E’ estremamente difficile impostare uno standard per classificare un database di immagini assortite in termini della loro somiglianza ad un immagine data. Una variazione significante puo’ essere osservata attraverso classificazioni prodotte da diversi utenti e fra due assegnamenti dello stesso utente a tempi differenti. Malgrado questi ostacoli , e’ importante sviluppare un’ insieme di criteri generali per assegnare le relative performance dei sistemi VIR. Goodness of retrieval. Questo giudizio approssimativamente corrisponde alle immagini mentali dell’utente di cosa dovrebbe essere recuperato dal sistema per un data base di riferimento. Alcune semplici misure sono riassunte attraverso l’iterazione dell’utente. • • • • • “Il sistema e’ buono xke’ querying con un esempio di giardino fiorito recupera 90% di scene di esterni di cui 80% sono giardini fioriti” L’utente giudica la bonta’ del sistema attraverso il numero di “correct” matches nei primi screenshots. “Il colore e le texture del terzo risultatosono abbastanza giuste, ma la loro forma nel mezzo non lo e’” Qui l’utente misura la dimensione e il grado di rilevanza per ogni risultato rilevante “Il risultato e’ scarso xke queste 3 rose dovrebbero essere piu’ in alto nella gerarchia rispetto alla macchina o al bambino sul prato”. Il ciriterio e’ relative rank degli oggetti rilevanti vs quello degli oggetti non rilevanti. Un sistema in cui per la stessa queryalcune immagini rilevanti sono ordinate piu’ in basso delle immagini non rilevanti e’ giudicato come un performance non buona rispetto ai sistemi che ordinano in modo giusto “Come mai quell’immagine che ho visto nei promi due schermi non c’e’” Perche appare quando riduco il peso dei colori? Perche’ no quando aumento il peso della texture” L’utente in questo caso e’ passato dal modo di ricerca “image-browser” al modo di ricerca “image locator”. Ora il criterio di correttezza e la deviazione da un ordinamento aspettato di un immagine di riferimento e the incremental improvement achived per query refinement operation. “Non e’ chiaro quale combinazione di pesi puo’ recuperare quello che voglio. C’e un modo per marcare i risultati che mi piacciono e non ed avere risultati migliori dal sistema” L’utente richiede il meccanismo di relevance feedback, un meccanismo attraverso il quale l’utente guarda alle risoposte prodotte dal sistema per una query, e cataloga i risultati con un punteggio di rilevanza. Il sistema usa questi punteggi per modificare e ripetere la querym aspettando che escano risultati con una piu’ alta rilevanza. L’aspetto piu’ notevole in queste misure di massima e’ che il giudizio dell utente della “bonta’” e’ dato su la quantita’ di dati rilevanti sono recuperati. Molti dei sistemi correnti cercano di minimizzare i risultati falsi negativi con un’ espansione dei falsi positivi. Un approccio bilanciato e ottimizzato delle performance dei VIR non e’ ancora realta’ Effevtiveness. Se ci muoviamo da un sistema genearl pourpose ad uno piu’ specifico (applicato ad un dominio specifico), le queries dell’utente diventano piu’ sofisticate e utili. Il criterio di assegnamento inoltre cambia in ordine di misurare l’effficacia del recupero nel contesto specifico del problema di applicazione. Basandosi sui application problems per cui noi abbiamo adattato Virage Image Engine , offriamo diverse osservazioni sulla percezione e sulla realta’ dell’efficacia. • • • In molte applicazioni specifiche, il processo di estrazione di caratteristiche visuali e’ limitato alle tecniche offerte di immane processing e computer vision. E non sono mai perfette. Quindi, e’ necessario trattare l’efficacia del recupero, separatamente dagli algoritmi di underlying image processing.. Tuttavia gli utenti raramente fanno distinzione , giudicando le performance di sistema dai risultati di recupero , senza realzizzare che non ci sono algoritmi per calcolare le caratteristiche che vogliono. Fare la distinzione e’ una parte importante dell’educazione dell’utente. Abbiamo trovato utile per l’utente stimare quanto i risultati potrebbero essere diversi dai risultati dati assumendo che il sistema produca estrazioni perfette di caratteristiche. I risultati dei recuperi basati sulla somiglianza non sono cosi’ sensibili ai piccoli errori dell’estrazione delle caratteristiche. Spesso, le caratteristiche critiche influenzano l’efficacia sono la scelta delle funzioni di somiglianza e la selezione delle caratteristiche adeguate. In un’applicazione di trademark search, selezionando una moment-based shape features provoca un drammatico aumento dell’efficacia per l’utente.In un applicazione oftamologica , scegliere una funzione di somiglianza fuzzy ha una differenza significante rispetto a una metrica di pesi euclidea. Fare il sistema efficiente e’ un’ arte. Il merito reale di un sistema VIR e’ l’abilita’ di permettere sufficiente estendibilita’e flessibilita’ che puo’ essere girata ad ogni applicazione per utente.