Valutazioni

Transcript

Valutazioni
CORSO DI INFORMATION RETRIEVAL
Modello vettoriale esteso e
valutazioni sistemi di IR
Gabriella Pasi
Università degli Studi di Milano Bicocca
e-mail: [email protected]
Valutazione di Sistemi di
Information Retrieval
Valutazione di un Sistema di
Information Retrieval
Perchè si valuta un sistema di IR?
I compiti di un IRS non sono ben definiti
È difficile stabilire se il sistema ha fallito o meno
Per questa ragione è stata sviluppata una metodologia di
valutazione
Valutazione di un Sistema di
Information Retrieval
Componenti di un esperimento di valutazione di un sistema
di IR:
Un
sistema di IR (visto come una black box)
Una collezione di documenti
Una collezione di query
Un insieme di utenti
Un insieme di criteri di base di valutazione
Misure di performance
Il progetto dell’esperimento
Criteri di valutazione
Che cosa si valuta?
Funzionalità
Correttezza
performance
tempo
spazio
Come si valuta?
analisi funzionale
analisi degli errori
tempi di risposta
occupazione degli indici
efficacia del retrieval
precisione e completezza dei documenti reperiti
Per un utente singolo
Per un insieme di utenti
Per un insieme di argomenti
In generale
Criteri di valutazione: Questionari
Quanto i risultati soddisfano le necessità informative
dell’utente?
Quanto si è appreso su un dato argomento ricercato?
Apprendimento accidentale
Quanto si è appreso di cosa trattano globalmente i
documenti della collezione?
Quanto si è appreso (novità)
degli argomenti trattati?
di altri argomenti trattati?
Com’è l’interazione con il sistema?
Criteri di valutazione: Questionari
In che modo un
query?
documento può essere rilevante a una
Risponde precisamente alle domande dell’utente
Risponde parzialmente alle domande dell’utente
Suggerisce una sorgente di informazioni
Fornisce informazioni contestuali sull’argomento di
interesse
Richiama alla
memoria
dell’utente conoscenze
dimenticate
Criteri di valutazione
Sintesi dei questionari
Quanto rilevante è il documento?
Per
un dato utente e per le sue
informative (Soggettivo ma misurabile)
necessità
Quanto spesso gli utenti sono d’accordo nel
considerare un documento rilevante rispetto alla
stessa query?
Quanto bene risponde alla domanda?
La risposta è completa o parziale?
C’è informazione contestuale?
Fornisce indizi per esplorazioni future?
Criteri di valutazione: misure
Quale misura si può adottare per stimare l’abilità
dell’utente nell’utilizzare il sistema?
Quantità di Informazioni di base da appreddere sul
sistema
Forma di presentazione più adatta
Impegno necessario per l’utilizzo
Efficienza in termini di tempo e spazio
Efficacia:
Richiamo:
Proporzione di materiale rilevante
che viene reperito
Precisione: Proporzione di materiale reperito
che è rilevante
Criteri di base di valutazione
dell’efficacia
Assunzioni:
La rilevanza di un documento per l’utente viene
considerata binaria (rilevante/non rilevante)
La rilevanza di un documento è indipendente dagli
altri documenti.
L’utente è messo nella condizione di scoprire
documenti rilevanti nella collezione senza l’ausilio del
sistema
Criteri di base di valutazione
dell’efficacia
Tutti i documenti
Reperiti
Rilevanti
Definizioni di Precisione e Richiamo
| Rilevanti e Reperiti |
Precisione =
| Reperiti |
Richiamo =
| Rilevanti e Reperiti |
| Rilevanti nell' intera Collezione |
Tutti i doc.
Reperiti
Rilevanti
Definizioni di Precisione e Richiamo
Obbiettivo per un’efficacia alta:
Reperire quanti più documenti rilevanti possibile,
minimizzando il numero di documenti non rilevanti
reperiti
Definizioni di Precisione e Richiamo
Precisione altissima (1), richiamo molto basso
Reperiti
Rilevanti
Definizioni di Precisione e Richiamo
Precisione e Richiamo molto bassi (0)
Reperiti
Rilevanti
Definizioni di Precisione e Richiamo
Richiamo alto, Precisione bassa
Reperiti
Rilevanti
Definizioni di Precisione e Richiamo
Precisone e Richiamo alti
reperiti
Rilevanti
Misura di Richiamo e Precisione
Per ogni query e utente si misurano Richiamo (R) e
Precisione (P)
I sistemi producono generalmente un ordinamento dei
documenti:
si effettuano misure di Precisione con diversi livelli di
Richiamo:
si individuano nella lista ordinata punti (cut-off) in
cui la recall è 10%, 20%, 100% e si valuta la
precisione in tale punti
Si effettua una media di R e P per l’insieme di query
Si effettua una media per l’insieme di utenti
Misura di Recall e Precisione
Si osserva un bilanciamento tra i valori di Precisione e di
Richiamo
precisione
x
x
x
recall
x
PRECISIONE vs RICHIAMO
E’ difficile ipotizzare quale dei due comportamenti sia
migliore: generalmente dipende dall’utente
Precisione
x
x
x
x
Richiamo
Misure di Precisione
per livelli di Richiamo
Si considerana il numero di documenti RILEVANTI
REPERITI a diversi livelli di rilevanza dal sistema:
I
I
I
I
I
I
PRIMI
PRIMI
PRIMI
PRIMI
PRIMI
PRIMI
5 documenti nella lista ordinata dei reperiti
10
20
50
100
500
Si misura la precisione per ogni livello di richiamo
Si prende la media (pesata) dei risultati
E’ un metodo per stimare quanto è la bontà della
stima della rilevanza da parte del sistema
Misure di Precisione per livelli di Richiamo
Documenti rilevanti per l’utente per una data query q
Rq={d3, d5, d9, d25, d39, d44, d56, d71, d89, d123} |Rq|=10
Documenti reperiti dal sistema in ordine decrescente di rilevanza
1
d123
2
d84
Calcolo della precisione per livelli di Richiamo fissati
3
d56
4
d6
Primo 1: Recall = 1/10= 10% Precisione 1/1=100%
5
d8
primi 3: Recall = 2/10= 20% Precisione 2/3=66%
6
d9
7
d511
primi 6: Recall = 3/10= 33% Precisione 3/6=50%
8
d129
primi 10: Recall = 4/10= 40% Precisione 4/10=40%
9
d187
10
d25
primi 15: Recall = 5/10= 50% Precisione 5/15=33%
11
d38
Recall> 50%
precisione=0
12
d48
13
d250
14
d113
15
d3
Misure di Precisione per livelli di Richiamo
Interpolazione dei risultati ottenuti dalla valutazione di
Recall e Precisione su molte query:
P(R)= ∑i=1…,Nq Pi(R)/Nq
P(R) = valor medio di Precisione al livello R di richiamo
date un numero Nq di query
Pi(R) = Precisione al livello R di Richiamo data la i-esima
query.
Spesso Pi(R) non è disponibile, perciò lo si interpola:
Pi(Rk)= max Rk<=r<=R k+1 Pi(r)
Misure di Precisione per livelli di Richiamo
Documenti rilevanti per l’utente per una data query q
Rq={d3, d56, d129}
|Rq|=3
Documenti reperiti dal sistema in ordine decrescente di rilevanza
1
d123
primi 3: Recall = 1/3= 33.3% Precisione 1/3=33.3%
2
d84
3
d56
primi 8: Recall = 2/3= 66.6% Precisione 2/8=25%
4
d6
primi 15: Recall = 3/3= 100% Precisione 3/15=20%
5
d8
6
d9
NON si dispone dei valori di P per gli 11 livelli standard di
7
d511
recall (0% 10%, 20%, 30%, …100%)
8
d129
⇒Si interpolano i valori di precisione
9
d187
10
d25
⇒ P(R0% ) => P(R30% ) = 33.3%
11
d38
⇒P(R40% ) =>P(R60%)=max 50% <=r<= 70% (P(66.6%))=25%
12
d48
13
d250
⇒P(R70% ) =>P(R100%)=max 90% <=r<= 100% (P(100%))=20%
14
d113
15
d3
Confronto di curve di R/P
Permettono il confronto di:
Algoritmi diversi per modellare attività specifiche dello
stesso sistema (es tecniche di indicizzazione distinte)
Lo stesso sistema per utenti/query/collezioni diverse
Sistemi diversi
Misure singole di efficacia del retrieval
E’ utile produrre un valore singolo di precisione per valutare
le prestazioni di un algoritmo in funzione di query particolari
precisione
Calcolo della media della Precisione P corrispondente a un
incremento unitario del numero di documenti rilevanti reperiti
35,00%
30,00%
25,00%
20,00%
15,00%
10,00%
5,00%
0,00%
0,00%
curva R/P
33,30%
66,67%
100,00%
50,00%
100,00%
150,00% curca R/P
recall all'incremento di 1 doc reperito
rilevante
P=(33,3+25+100)/3=26,1%
favorisce i sistemi che reperiscono i documenti rilevanti
nelle prime posizioni
Misure singole di efficacia del retrieval
R-P:
Calcolo della Precisione corrispondente ai primi R
documenti reperiti, ove R = numero totale di documenti
rilevanti per l’utente rispetto alla query q
R= Rq
utile per stimare il comportamento di un algoritmo in
funzione di un set di query diverse
Si puo calcolare R-P per il set di query
1° esempio: tra i primi 10 documenti ce ne sono 4 rilevanti
Precisione = 4/10=40% =>10-P=40%
2° esempio: Tra i primi 3 documenti reperiti c’è solo il primo
rilevante:
Precisione= 1/3=33.3% =>3-P= 33,3%
Misure singole di efficacia del retrieval
Istogramma di Precisione
Utile per confrontare il retrieval di due algoritmi
Siano R-P(A)(qi) e R-P(B)(qi) le misure di R-precisione per
due algoritmi A e B per la query qi
R-P(A/B)(qi) = R-P(A)(qi) - R-P(B)(qi)
R-P(A/B)(qi)=0 i due algoritmi hanno lo stessa precisione per
la query qi
R-P(A/B)(qi)>0 A è più preciso di B
R-P(A/B)(qi)<0 A è meno preciso di B
Si possono calcolare valori medi R-P(A/B)(qi) su un set di query
Istogramma di Precisione
Tabelle riassuntive delle misure di
Precisione e Recall
•Numero totale di query
•N totale di documenti reperiti da tutte le query
•N totale di documenti rilevanti reperiti da tutte le query
•N totale di documenti rilevanti nella collezione
Problemi inerenti il calcolo di Precisione e
Richiamo
Non si conoscono i veri valori di richiamo
eccetto nel caso di collezioni con pochi documenti
Precisione/Richiamo sono tra loro in relazione
misure combinate sono in alcuni casi più appropriate
Si è assunta una modalità batch di retrieval,
mentre l’interazione con l’utente può alterare l’efficacia
del retrieval. Quindi sarebbe necessario quantificare
l’informazione derivante dall’interazione con l’utente
Si assume che l’ordinamento stretto sia importante.
Matrice di Confronto
Utente ->
Sistema ↓
Doc è
rilevante
Doc NON è totale
rilevante
documenti
Doc è
reperito
a
b
a+b
Doc NON è
reperito
c
d
c+d
a+c
b+d
Totale
a+b+c+d
Accuratezza: (a+d) / (a+b+c+d)
Precisione: a/(a+b)
Richiamo:
a/(a+c) ? (spesso c non è noto)
Problemi nell’interpretazione dell’accuratezza: nelle collezioni
grandi
La maggior parte dei documenti non sono rilevanti
La maggior parte dei documenti non sono reperiti
si ha un’amplificazione del valore di accuratezza a causa
del valore d>>a
Matrice di Confronto dell’ordinamento
Doc. molto
rilevanti
Doc.
rilevanti
Doc. poco
rilevanti
Doc. non
rilevanti
Doc reperito e
molto rilevante
a11
a12
a13
a14
Doc reperito e
rilevante
a21
a22
a23
a24
Doc reperito e
poco
rilevante
a31
a32
a33
a34
Doc non reperito
a41
a42
a43
a44
Utente ->
Sistema ↓
Si valutano Richiamo, Precisione e Accuratezza dell’ordinamento
per ogni classe di rilevanza
R (Molto rilevanti)=a11/(a11+a21+a31+a41)
P(Molto rilevanti)=a11/(a11+a12+a13+a14)
A(Molto rilevanti)=a11/(totale nelle varie classi)
Combinazione di Precisione e
Richiamo in un singolo parametro
(media armonica)
F( j) =
2
1
1
+
R ( j) P ( j)
F(j)∈[0,1]
R(j) è il Richiamo e P(j) è la Precisione corrispondenti al jesimo documento nella lista ordinata dei documenti reperiti
dal sistema
F(j)=0 nessun documento rilevante è reperito
F(j)=1 tutti i documenti reperiti sono quelli rilevanti
Combinazione di Precisione e
Richiamo in un singolo parametro
E_measure
E( j) = 1 −
(K. van Rijsbergen, 79)
1
 1 
1
 + (1 − α)
α
R ( j)
 P( j) 
α = 1 /(β 2 + 1)
Permette all’utente di stabilire se intende valutare il sistema
privilegiando il Richiamo o alla precisione
P(j) = Precisione R(j) = Richiamo al jesimo documento nella lista
reperita
α = misura dell’importanza relativa della precisione P rispetto al
Richiamo R
α = 0.5 l’utente accorda pari importanza a P ed R
α = 1 E = 1-P
α = 0 E = 1-R
Misure di efficacia dipendenti dall’utente
Problemi:
Utenti diversi possono identificare documenti rilevanti
differenti rispetto alla stessa query
Rilevanza è soggettiva
Dipende dalla storia, esperienza dell’utente
Dall’ordine di analisi dei documenti
Necessità di misure che tengano conto della dipendenza
dall’utente
Copertura, Novità, Richiamo relativo,
“Sforzo” di Richiamo
Misure di efficacia dipendenti
dall’utente
Siano:
•R = insieme di tutti i documenti rilevanti
•A= insieme reperito dal sistema
•U = insieme di documenti rilevanti per l’utente U ⊆ R
•Rk = A ∩ U documenti reperiti e rilevanti per l’utente
•Ru documenti reperiti rilevanti e sconosciuti precedentemente al
retrieval all’utente
Copertura = |Rk|/|U|
È la frazione di documenti rilevanti reperiti e noti all’utente
Novità = |Ru| / (|Ru|+|Rk|)
frazione di documenti rilevanti reperiti e non noti all’utente
Misure di efficacia dipendenti
dall’utente
Copertura = |Rk| / |U|
Copertura alta indica che il sistema trova molti dei documenti
noti come rilevanti all’utente
Novità = |Ru| / ( |Ru|+|Rk|)
Novità alta indica che il sistema rivela all’utente molti
documenti rilevanti
Ru
A
R
U
Rk
Misure di efficacia dipendenti
dall’utente
Richiamo relativo: rapporto tra # di documenti
reperiti rilevanti e # totale di documenti rilevanti che
l’utente si aspetta in risposta a una query
“Sforzo” di Richiamo : rapporto tra # di
documenti rilevanti che l’utente si aspetta in risposta
a una query e il # di documenti esaminati (tra quelli
reperiti) per trovare quelli rilevanti
Collezioni TREC di Riferimento per le
Valutazioni
Text REtrieval Conference/Competition
prima conferenza TREC 1992
NIST (National Institute of Standards & Technology)
Office of Defense Advanded Research Projects Agency (DARPA)
Collezioni >6 Gigabytes (6 CRDOMs), >1.5 Milione
Documenti
Newswire & full text news (AP, WSJ, Ziff, FT)
documenti governativi (federal register, Congressional Record)
trascrizioni Radio (FBIS)
sottoinsiemi Web (“Large Web” separate with 18.5 Million pages
of Web data – 100 Gbytes)
Brevetti/licenze
Collezioni TREC di riferimento per le
valutazioni
Cranfield 2 –>
1400 Documents, 221 Queries
200 Documents, 42 Queries
INSPEC –> 542 Documents, 97 Queries
UKCIS -- > 10000 Documents, multiple sets, 193
Queries
ADI –> 82 Document, 35 Queries
CACM –> 3204 Documents, 50 Queries
CISI –> 1460 Documents, 35 Queries
MEDLARS (Salton) ->273 Documents, 18 Queries
CLEFF per valutazione di IR multilingua
Conferenze TREC
Per ogni conferenza viene progettato un insieme di
esperimenti
I gruppi che partecipano utilizzano:
gli stessi dati (collezioni di circa 2 Gb
Stessi “topics” o necessità informative
Stessi giudizi di rilevanza
I risultati prodotti vengono inseriti in un software
standard di valutazione che permette un confronto
diretto tra I diversi sistemi
Conferenze TREC: collezioni
La collezione TREC è distribuita a pagamento su 6 CD-ROM
e contiene:
WSJ Wall Street Journal - circa 100Mila docs AP Associated Press – circa 85.000 docs
ZIFF Computer articles – 75.000 docs
FR Federal Register – circa 25000 docs
DOE Publications abstract 225000 docs
PAT US Patents – 6700 docs
FT Financial Times – 210.000 docs
FBIS Foreign Broadcast Inf. Serv. – 130.000 docs
I documenti di tutte le collezioni sono in SGML
Tag:
<DOCNO> # doc.
<TEXT> testo
Esempio di documento delle
collezioni TREC
<doc> Number: 168
<docno> WSJ880406-0090 </docno>
<hl> AT&T Unveils Services to upgrade phone networks
under global plan </hl>
<authot> J. Guyon </author>
<ateline> New York </dateline>
<text>
American telephone &telegraph Co. Introduced ……
….
</text>
</doc>
TREC: topics e giudizi
Competizione tra Vari gruppi di ricerca e produttori
commerciali di sistemi di IR (TREC 6 -> 51 gruppi,
TREC 7 -> 56, TREC -> 8 66)
Risultati giudicati in base a precisione e recall, fino a un
livello di recall di 1000 documenti
Query + Giudizi di Rilevanza
Topics, vale a dire Query progettate da specialisti
espresse in linguaggio naturale
numero di topics: sono stati preparati gruppi di
topics per ogni conferenza: con 3 campi:
<title> <number> <descriz> <narrative>
Giudizi di Rilevanza sono foniti per ogni topics
(metodo di pooling)
Vengono prodotti solo per i primi 100 documenti
nelle liste reperite da tutti i sistemi di IR partecipanti alla
conferenza, non per l’intera collezione
Esempio di Topics TREC
<num> Number: 168
<title> Topic: Financing AMTRAK
<desc> Description:
A document will address the role of the Federal
Government in financing the operation of the National
Railroad Transportation Corporation (AMTRAK)
<narr> Narrative: A relevant document must provide
information on the government’s responsibility to make
AMTRAK an economically viable entity. It could also
discuss the privatization of AMTRAK as an alternative to
continuing government subsidies. Documents comparing
government subsidies given to air and bus transportation
with those provided to AMTRAK would also be relevant.
slide di Ellen Voorhees del NIST
slide di Ellen Voorhees del NIST
slide di Ellen Voorhees del NIST
slide di Ellen Voorhees del NIST
slide di Ellen Voorhees del NIST
slide di Ellen Voorhees del NIST