Compito 5
Transcript
Compito 5
Sistemi Gestione Documentale • ESERCIZIO 1 (Punti 5). Assumendo d=…….., determinare il PageRank per i nodi del grafo in figura: • • ESERCIZIO 2 (Punti 6). Parte a) determinare la similarita' coseno ed il prodotto scalare tra la Query Q: “orso corre” ed i seguenti documenti, assumendo l’utilizzo di stopwording e stemming: • D1: le orse correre gatto correre correre formica • D2: orso correre sul gatto correre topi • D3: orsa corre • D4: esame luglio • Parte b) Supponiamo che la query Q sia introdotta in un sistema di IR che usa similarita' coseno con al suo interno la collezione di documenti {D1, D2, D3, D4}. Assumento che il solo D3 sia considerato rilevante per la query. Determinare la precision/recall nel caso di utilizzo di una soglia sulla similarita' coseno di ….? • Parte c) costruire un indice inverso che permetta le ricerche nella collezione. • Parte d) puo’ l’indice inverso appena costruito rispondere a domande con operatori booleani AND/OR? • • • • ESERCIZIO 3 (Punti 5): Determinare la rappreentazione TF-IDF dei documenti D1: il cane mangia il gatto mangia il topo mangia il formaggio D2: il cane mangia il gatto mangia il topo D3: il cane mangia il gatto • ESERCIZIO 4 (Punti 6): • Supponendo che un semplice crawler sequenziale lavori sul Web in figura usando il nodo A come seme e che che ogni pagina necessiti in media di ...00ms per essere scaricata, determinare dopo quanti secondi li crawler avra’ coperto la porzione massima visibile di Web. • ESERCIZIO 5 (Punti 3): decrivere in max 100 parole le differenze tra codifica ASCII ed UTF8 e del perche’ sia nata l’esigenza della codifica UTF8. • ESERCIZIO 6 (Punti 5), Assumendo d=……., determinare il PageRank al passo 2 (t=2) dei nodi del grafo in figura: