Esercizi su IR e Web

Transcript

Esercizi su IR e Web
ESERCIZI
!
ESERCIZIO 1 (Punti 7). Assumendo d=......., determinare il PageRank per i nodi dei grafi in figura:
!
ESERCIZIO 2 (Punti 4). Spiegare quali fattori sono determinanti per effettuare l'ordinamento delle pagine sul
Web e come mai sono necessari. Perche' il PageRank non puo' essere il solo fattore utilizzato
nell'ordinamento.? (MAX 60 parole).
!
ESERCIZIO 8 (Punti 8). Un sistema di Information Retrieval utilizza stopword e stemming (masc./femm,
sing./plur.), ed una rappresentazione TF-IDF per i documenti e le query.
! D1: informatica aziendale oggi
! D2: orso bruno
! D3: informatica studiata in azienda
! D4: libro informatica applicata
Parte a) Costruire l'indice inverso in grado di rispondere a query per frasi esatte assumendo l’utilizzo di
stopwording e stemming masc./femm., sing./plur.
Parte b) Mostrare come l’indice risponde alla query (libri OR orso) AND applicato
Parte c) Considerando la query “informatica OR libro”, determinare la precision e la recall nel caso di
utilizzo di una soglia sulla similarita' coseno di 0.4, nel caso in cui, CASO i: D3 è rilevante per la query,
CASO ii: D1 e D3 sono rilevanti.
!
ESERCIZIO 9 (Punti 5): con riferimento all'architettura dei motori di ricerca studiata durante il corso,
ipotizzare le cause che non permettono ai motori di memorizzare e rendere cercabile l'intero contenuto del Web
(MAX 100 parole).
!
ESERCIZIO 10 (Punti 7). Dati i documenti:
" D1: wake me up before you go go
" D2: wake me up before you go home
Parte a) determinare un documento D3 tale che, D3!=D2 e cos_sim(D2,D3)=1
Parte b) determinare un documento D4 tale che cos_sim(D2,D4)=0
Parte c) determinare un documento D5 tale che cos_sim(D2,D5)>cos_sim(D1,D5)
Parte d) determinare un documento D6 tale che cos_sim(D2,D6)<cos_sim(D1,D6)
! ESERCIZIO 3 (Punti 9). Un sistema di Information Retrieval utilizza stopword e stemming
(masc./femm, sing./plur.), ed una rappresentazione TF-IDF per i documenti e le query.
! D1: orsi polari nuotano
! D2: gli orsi polari nuotano oceano
! D3: gli orsi bruni nuotano fiumi
! D4: lontre in mare
! Costruire l'indice inverso in grado di rispondere a query per frasi esatte assumendo l’utilizzo di
stopwording e stemming masc./femm., sing./plur
! Mostrare come l’indice risponde alla query (lontra OR orso) AND oceano
! Considerando la query “orso AND oceano”, determinare la precision e la recall nel caso di
utilizzo di una soglia sulla similarita' coseno di _______, nel caso in cui, CASO i: D2 è rilevante
per la query, CASO ii: D1 e D3 sono rilevanti.
! ESERCIZIO 4 (Punti 4) Perche’ la qualita’ di un sistema di information retrieval viene misurata da due
valori e non uno? (MAX 50 parole).
!
ESERCIZIO 5 (Punti 6):
1. Fornire un esempio di query e 3 documenti in cui la similarita’ coseno e quella prodotto scalare
forniscono lo stesso ordinamento dei documenti ritornati.
2. Fornire un esempio di query e 3 documenti in cui la similarita’ coseno e quella prodotto scalare
forniscono un ordinamento esattamente inverso.
!
ESERCIZIO 6 (Punti 6). Assumendo d=......., determinare il PageRank per i nodi dei tre grafi in figura:
!
ESERCIZIO 7 (Punti 4). La valutazione dell'importanza di una pagina Web puo' essere realizzata anche solo
contando il numero di nodi padre. Spiegare perche', nonostante la complessita' aggiuntiva, si preferisce il
PageRank rispetto a metriche semplici come il conteggio dei nodi padre (MAX 60 parole).