Compito 5

Transcript

Compito 5
Sistemi Gestione Documentale
•
ESERCIZIO 1 (Punti 5). Assumendo d=…….., determinare il PageRank per i nodi del grafo in figura:
•
•
ESERCIZIO 2 (Punti 6).
Parte a) determinare la similarita' coseno ed il prodotto scalare tra la Query Q: “orso corre” ed i seguenti
documenti, assumendo l’utilizzo di stopwording e stemming:
•
D1: le orse correre gatto correre correre formica
•
D2: orso correre sul gatto correre topi
•
D3: orsa corre
•
D4: esame luglio
•
Parte b) Supponiamo che la query Q sia introdotta in un sistema di IR che usa similarita' coseno con al suo
interno la collezione di documenti {D1, D2, D3, D4}. Assumento che il solo D3 sia considerato rilevante per la query.
Determinare la precision/recall nel caso di utilizzo di una soglia sulla similarita' coseno di ….?
•
Parte c) costruire un indice inverso che permetta le ricerche nella collezione.
•
Parte d) puo’ l’indice inverso appena costruito rispondere a domande con operatori booleani AND/OR?
•
•
•
•
ESERCIZIO 3 (Punti 5): Determinare la rappreentazione TF-IDF dei documenti
D1: il cane mangia il gatto mangia il topo mangia il formaggio
D2: il cane mangia il gatto mangia il topo
D3: il cane mangia il gatto
•
ESERCIZIO 4 (Punti 6):
•
Supponendo che un semplice crawler sequenziale lavori sul Web in figura usando il nodo A come seme e
che che ogni pagina necessiti in media di ...00ms per essere scaricata, determinare dopo quanti secondi li crawler avra’
coperto la porzione massima visibile di Web.
•
ESERCIZIO 5 (Punti 3): decrivere in max 100 parole le differenze tra codifica ASCII ed UTF8 e del perche’ sia nata
l’esigenza della codifica UTF8.
•
ESERCIZIO 6 (Punti 5), Assumendo d=……., determinare il PageRank al passo 2 (t=2) dei nodi del grafo in figura: