Valutazioni
Transcript
Valutazioni
CORSO DI INFORMATION RETRIEVAL Modello vettoriale esteso e valutazioni sistemi di IR Gabriella Pasi Università degli Studi di Milano Bicocca e-mail: [email protected] Valutazione di Sistemi di Information Retrieval Valutazione di un Sistema di Information Retrieval Perchè si valuta un sistema di IR? I compiti di un IRS non sono ben definiti È difficile stabilire se il sistema ha fallito o meno Per questa ragione è stata sviluppata una metodologia di valutazione Valutazione di un Sistema di Information Retrieval Componenti di un esperimento di valutazione di un sistema di IR: Un sistema di IR (visto come una black box) Una collezione di documenti Una collezione di query Un insieme di utenti Un insieme di criteri di base di valutazione Misure di performance Il progetto dell’esperimento Criteri di valutazione Che cosa si valuta? Funzionalità Correttezza performance tempo spazio Come si valuta? analisi funzionale analisi degli errori tempi di risposta occupazione degli indici efficacia del retrieval precisione e completezza dei documenti reperiti Per un utente singolo Per un insieme di utenti Per un insieme di argomenti In generale Criteri di valutazione: Questionari Quanto i risultati soddisfano le necessità informative dell’utente? Quanto si è appreso su un dato argomento ricercato? Apprendimento accidentale Quanto si è appreso di cosa trattano globalmente i documenti della collezione? Quanto si è appreso (novità) degli argomenti trattati? di altri argomenti trattati? Com’è l’interazione con il sistema? Criteri di valutazione: Questionari In che modo un query? documento può essere rilevante a una Risponde precisamente alle domande dell’utente Risponde parzialmente alle domande dell’utente Suggerisce una sorgente di informazioni Fornisce informazioni contestuali sull’argomento di interesse Richiama alla memoria dell’utente conoscenze dimenticate Criteri di valutazione Sintesi dei questionari Quanto rilevante è il documento? Per un dato utente e per le sue informative (Soggettivo ma misurabile) necessità Quanto spesso gli utenti sono d’accordo nel considerare un documento rilevante rispetto alla stessa query? Quanto bene risponde alla domanda? La risposta è completa o parziale? C’è informazione contestuale? Fornisce indizi per esplorazioni future? Criteri di valutazione: misure Quale misura si può adottare per stimare l’abilità dell’utente nell’utilizzare il sistema? Quantità di Informazioni di base da appreddere sul sistema Forma di presentazione più adatta Impegno necessario per l’utilizzo Efficienza in termini di tempo e spazio Efficacia: Richiamo: Proporzione di materiale rilevante che viene reperito Precisione: Proporzione di materiale reperito che è rilevante Criteri di base di valutazione dell’efficacia Assunzioni: La rilevanza di un documento per l’utente viene considerata binaria (rilevante/non rilevante) La rilevanza di un documento è indipendente dagli altri documenti. L’utente è messo nella condizione di scoprire documenti rilevanti nella collezione senza l’ausilio del sistema Criteri di base di valutazione dell’efficacia Tutti i documenti Reperiti Rilevanti Definizioni di Precisione e Richiamo | Rilevanti e Reperiti | Precisione = | Reperiti | Richiamo = | Rilevanti e Reperiti | | Rilevanti nell' intera Collezione | Tutti i doc. Reperiti Rilevanti Definizioni di Precisione e Richiamo Obbiettivo per un’efficacia alta: Reperire quanti più documenti rilevanti possibile, minimizzando il numero di documenti non rilevanti reperiti Definizioni di Precisione e Richiamo Precisione altissima (1), richiamo molto basso Reperiti Rilevanti Definizioni di Precisione e Richiamo Precisione e Richiamo molto bassi (0) Reperiti Rilevanti Definizioni di Precisione e Richiamo Richiamo alto, Precisione bassa Reperiti Rilevanti Definizioni di Precisione e Richiamo Precisone e Richiamo alti reperiti Rilevanti Misura di Richiamo e Precisione Per ogni query e utente si misurano Richiamo (R) e Precisione (P) I sistemi producono generalmente un ordinamento dei documenti: si effettuano misure di Precisione con diversi livelli di Richiamo: si individuano nella lista ordinata punti (cut-off) in cui la recall è 10%, 20%, 100% e si valuta la precisione in tale punti Si effettua una media di R e P per l’insieme di query Si effettua una media per l’insieme di utenti Misura di Recall e Precisione Si osserva un bilanciamento tra i valori di Precisione e di Richiamo precisione x x x recall x PRECISIONE vs RICHIAMO E’ difficile ipotizzare quale dei due comportamenti sia migliore: generalmente dipende dall’utente Precisione x x x x Richiamo Misure di Precisione per livelli di Richiamo Si considerana il numero di documenti RILEVANTI REPERITI a diversi livelli di rilevanza dal sistema: I I I I I I PRIMI PRIMI PRIMI PRIMI PRIMI PRIMI 5 documenti nella lista ordinata dei reperiti 10 20 50 100 500 Si misura la precisione per ogni livello di richiamo Si prende la media (pesata) dei risultati E’ un metodo per stimare quanto è la bontà della stima della rilevanza da parte del sistema Misure di Precisione per livelli di Richiamo Documenti rilevanti per l’utente per una data query q Rq={d3, d5, d9, d25, d39, d44, d56, d71, d89, d123} |Rq|=10 Documenti reperiti dal sistema in ordine decrescente di rilevanza 1 d123 2 d84 Calcolo della precisione per livelli di Richiamo fissati 3 d56 4 d6 Primo 1: Recall = 1/10= 10% Precisione 1/1=100% 5 d8 primi 3: Recall = 2/10= 20% Precisione 2/3=66% 6 d9 7 d511 primi 6: Recall = 3/10= 33% Precisione 3/6=50% 8 d129 primi 10: Recall = 4/10= 40% Precisione 4/10=40% 9 d187 10 d25 primi 15: Recall = 5/10= 50% Precisione 5/15=33% 11 d38 Recall> 50% precisione=0 12 d48 13 d250 14 d113 15 d3 Misure di Precisione per livelli di Richiamo Interpolazione dei risultati ottenuti dalla valutazione di Recall e Precisione su molte query: P(R)= ∑i=1…,Nq Pi(R)/Nq P(R) = valor medio di Precisione al livello R di richiamo date un numero Nq di query Pi(R) = Precisione al livello R di Richiamo data la i-esima query. Spesso Pi(R) non è disponibile, perciò lo si interpola: Pi(Rk)= max Rk<=r<=R k+1 Pi(r) Misure di Precisione per livelli di Richiamo Documenti rilevanti per l’utente per una data query q Rq={d3, d56, d129} |Rq|=3 Documenti reperiti dal sistema in ordine decrescente di rilevanza 1 d123 primi 3: Recall = 1/3= 33.3% Precisione 1/3=33.3% 2 d84 3 d56 primi 8: Recall = 2/3= 66.6% Precisione 2/8=25% 4 d6 primi 15: Recall = 3/3= 100% Precisione 3/15=20% 5 d8 6 d9 NON si dispone dei valori di P per gli 11 livelli standard di 7 d511 recall (0% 10%, 20%, 30%, …100%) 8 d129 ⇒Si interpolano i valori di precisione 9 d187 10 d25 ⇒ P(R0% ) => P(R30% ) = 33.3% 11 d38 ⇒P(R40% ) =>P(R60%)=max 50% <=r<= 70% (P(66.6%))=25% 12 d48 13 d250 ⇒P(R70% ) =>P(R100%)=max 90% <=r<= 100% (P(100%))=20% 14 d113 15 d3 Confronto di curve di R/P Permettono il confronto di: Algoritmi diversi per modellare attività specifiche dello stesso sistema (es tecniche di indicizzazione distinte) Lo stesso sistema per utenti/query/collezioni diverse Sistemi diversi Misure singole di efficacia del retrieval E’ utile produrre un valore singolo di precisione per valutare le prestazioni di un algoritmo in funzione di query particolari precisione Calcolo della media della Precisione P corrispondente a un incremento unitario del numero di documenti rilevanti reperiti 35,00% 30,00% 25,00% 20,00% 15,00% 10,00% 5,00% 0,00% 0,00% curva R/P 33,30% 66,67% 100,00% 50,00% 100,00% 150,00% curca R/P recall all'incremento di 1 doc reperito rilevante P=(33,3+25+100)/3=26,1% favorisce i sistemi che reperiscono i documenti rilevanti nelle prime posizioni Misure singole di efficacia del retrieval R-P: Calcolo della Precisione corrispondente ai primi R documenti reperiti, ove R = numero totale di documenti rilevanti per l’utente rispetto alla query q R= Rq utile per stimare il comportamento di un algoritmo in funzione di un set di query diverse Si puo calcolare R-P per il set di query 1° esempio: tra i primi 10 documenti ce ne sono 4 rilevanti Precisione = 4/10=40% =>10-P=40% 2° esempio: Tra i primi 3 documenti reperiti c’è solo il primo rilevante: Precisione= 1/3=33.3% =>3-P= 33,3% Misure singole di efficacia del retrieval Istogramma di Precisione Utile per confrontare il retrieval di due algoritmi Siano R-P(A)(qi) e R-P(B)(qi) le misure di R-precisione per due algoritmi A e B per la query qi R-P(A/B)(qi) = R-P(A)(qi) - R-P(B)(qi) R-P(A/B)(qi)=0 i due algoritmi hanno lo stessa precisione per la query qi R-P(A/B)(qi)>0 A è più preciso di B R-P(A/B)(qi)<0 A è meno preciso di B Si possono calcolare valori medi R-P(A/B)(qi) su un set di query Istogramma di Precisione Tabelle riassuntive delle misure di Precisione e Recall •Numero totale di query •N totale di documenti reperiti da tutte le query •N totale di documenti rilevanti reperiti da tutte le query •N totale di documenti rilevanti nella collezione Problemi inerenti il calcolo di Precisione e Richiamo Non si conoscono i veri valori di richiamo eccetto nel caso di collezioni con pochi documenti Precisione/Richiamo sono tra loro in relazione misure combinate sono in alcuni casi più appropriate Si è assunta una modalità batch di retrieval, mentre l’interazione con l’utente può alterare l’efficacia del retrieval. Quindi sarebbe necessario quantificare l’informazione derivante dall’interazione con l’utente Si assume che l’ordinamento stretto sia importante. Matrice di Confronto Utente -> Sistema ↓ Doc è rilevante Doc NON è totale rilevante documenti Doc è reperito a b a+b Doc NON è reperito c d c+d a+c b+d Totale a+b+c+d Accuratezza: (a+d) / (a+b+c+d) Precisione: a/(a+b) Richiamo: a/(a+c) ? (spesso c non è noto) Problemi nell’interpretazione dell’accuratezza: nelle collezioni grandi La maggior parte dei documenti non sono rilevanti La maggior parte dei documenti non sono reperiti si ha un’amplificazione del valore di accuratezza a causa del valore d>>a Matrice di Confronto dell’ordinamento Doc. molto rilevanti Doc. rilevanti Doc. poco rilevanti Doc. non rilevanti Doc reperito e molto rilevante a11 a12 a13 a14 Doc reperito e rilevante a21 a22 a23 a24 Doc reperito e poco rilevante a31 a32 a33 a34 Doc non reperito a41 a42 a43 a44 Utente -> Sistema ↓ Si valutano Richiamo, Precisione e Accuratezza dell’ordinamento per ogni classe di rilevanza R (Molto rilevanti)=a11/(a11+a21+a31+a41) P(Molto rilevanti)=a11/(a11+a12+a13+a14) A(Molto rilevanti)=a11/(totale nelle varie classi) Combinazione di Precisione e Richiamo in un singolo parametro (media armonica) F( j) = 2 1 1 + R ( j) P ( j) F(j)∈[0,1] R(j) è il Richiamo e P(j) è la Precisione corrispondenti al jesimo documento nella lista ordinata dei documenti reperiti dal sistema F(j)=0 nessun documento rilevante è reperito F(j)=1 tutti i documenti reperiti sono quelli rilevanti Combinazione di Precisione e Richiamo in un singolo parametro E_measure E( j) = 1 − (K. van Rijsbergen, 79) 1 1 1 + (1 − α) α R ( j) P( j) α = 1 /(β 2 + 1) Permette all’utente di stabilire se intende valutare il sistema privilegiando il Richiamo o alla precisione P(j) = Precisione R(j) = Richiamo al jesimo documento nella lista reperita α = misura dell’importanza relativa della precisione P rispetto al Richiamo R α = 0.5 l’utente accorda pari importanza a P ed R α = 1 E = 1-P α = 0 E = 1-R Misure di efficacia dipendenti dall’utente Problemi: Utenti diversi possono identificare documenti rilevanti differenti rispetto alla stessa query Rilevanza è soggettiva Dipende dalla storia, esperienza dell’utente Dall’ordine di analisi dei documenti Necessità di misure che tengano conto della dipendenza dall’utente Copertura, Novità, Richiamo relativo, “Sforzo” di Richiamo Misure di efficacia dipendenti dall’utente Siano: •R = insieme di tutti i documenti rilevanti •A= insieme reperito dal sistema •U = insieme di documenti rilevanti per l’utente U ⊆ R •Rk = A ∩ U documenti reperiti e rilevanti per l’utente •Ru documenti reperiti rilevanti e sconosciuti precedentemente al retrieval all’utente Copertura = |Rk|/|U| È la frazione di documenti rilevanti reperiti e noti all’utente Novità = |Ru| / (|Ru|+|Rk|) frazione di documenti rilevanti reperiti e non noti all’utente Misure di efficacia dipendenti dall’utente Copertura = |Rk| / |U| Copertura alta indica che il sistema trova molti dei documenti noti come rilevanti all’utente Novità = |Ru| / ( |Ru|+|Rk|) Novità alta indica che il sistema rivela all’utente molti documenti rilevanti Ru A R U Rk Misure di efficacia dipendenti dall’utente Richiamo relativo: rapporto tra # di documenti reperiti rilevanti e # totale di documenti rilevanti che l’utente si aspetta in risposta a una query “Sforzo” di Richiamo : rapporto tra # di documenti rilevanti che l’utente si aspetta in risposta a una query e il # di documenti esaminati (tra quelli reperiti) per trovare quelli rilevanti Collezioni TREC di Riferimento per le Valutazioni Text REtrieval Conference/Competition prima conferenza TREC 1992 NIST (National Institute of Standards & Technology) Office of Defense Advanded Research Projects Agency (DARPA) Collezioni >6 Gigabytes (6 CRDOMs), >1.5 Milione Documenti Newswire & full text news (AP, WSJ, Ziff, FT) documenti governativi (federal register, Congressional Record) trascrizioni Radio (FBIS) sottoinsiemi Web (“Large Web” separate with 18.5 Million pages of Web data – 100 Gbytes) Brevetti/licenze Collezioni TREC di riferimento per le valutazioni Cranfield 2 –> 1400 Documents, 221 Queries 200 Documents, 42 Queries INSPEC –> 542 Documents, 97 Queries UKCIS -- > 10000 Documents, multiple sets, 193 Queries ADI –> 82 Document, 35 Queries CACM –> 3204 Documents, 50 Queries CISI –> 1460 Documents, 35 Queries MEDLARS (Salton) ->273 Documents, 18 Queries CLEFF per valutazione di IR multilingua Conferenze TREC Per ogni conferenza viene progettato un insieme di esperimenti I gruppi che partecipano utilizzano: gli stessi dati (collezioni di circa 2 Gb Stessi “topics” o necessità informative Stessi giudizi di rilevanza I risultati prodotti vengono inseriti in un software standard di valutazione che permette un confronto diretto tra I diversi sistemi Conferenze TREC: collezioni La collezione TREC è distribuita a pagamento su 6 CD-ROM e contiene: WSJ Wall Street Journal - circa 100Mila docs AP Associated Press – circa 85.000 docs ZIFF Computer articles – 75.000 docs FR Federal Register – circa 25000 docs DOE Publications abstract 225000 docs PAT US Patents – 6700 docs FT Financial Times – 210.000 docs FBIS Foreign Broadcast Inf. Serv. – 130.000 docs I documenti di tutte le collezioni sono in SGML Tag: <DOCNO> # doc. <TEXT> testo Esempio di documento delle collezioni TREC <doc> Number: 168 <docno> WSJ880406-0090 </docno> <hl> AT&T Unveils Services to upgrade phone networks under global plan </hl> <authot> J. Guyon </author> <ateline> New York </dateline> <text> American telephone &telegraph Co. Introduced …… …. </text> </doc> TREC: topics e giudizi Competizione tra Vari gruppi di ricerca e produttori commerciali di sistemi di IR (TREC 6 -> 51 gruppi, TREC 7 -> 56, TREC -> 8 66) Risultati giudicati in base a precisione e recall, fino a un livello di recall di 1000 documenti Query + Giudizi di Rilevanza Topics, vale a dire Query progettate da specialisti espresse in linguaggio naturale numero di topics: sono stati preparati gruppi di topics per ogni conferenza: con 3 campi: <title> <number> <descriz> <narrative> Giudizi di Rilevanza sono foniti per ogni topics (metodo di pooling) Vengono prodotti solo per i primi 100 documenti nelle liste reperite da tutti i sistemi di IR partecipanti alla conferenza, non per l’intera collezione Esempio di Topics TREC <num> Number: 168 <title> Topic: Financing AMTRAK <desc> Description: A document will address the role of the Federal Government in financing the operation of the National Railroad Transportation Corporation (AMTRAK) <narr> Narrative: A relevant document must provide information on the government’s responsibility to make AMTRAK an economically viable entity. It could also discuss the privatization of AMTRAK as an alternative to continuing government subsidies. Documents comparing government subsidies given to air and bus transportation with those provided to AMTRAK would also be relevant. slide di Ellen Voorhees del NIST slide di Ellen Voorhees del NIST slide di Ellen Voorhees del NIST slide di Ellen Voorhees del NIST slide di Ellen Voorhees del NIST slide di Ellen Voorhees del NIST