PROGRAMMA 2015-2016 F9201P031 - Information

Transcript

PROGRAMMA 2015-2016 F9201P031 - Information
PROGRAMMA 2015-2016
F9201P031 - Information Retrieval
Gabriella Pasi
INF/01
CFU: 6
ANNO: II
SEMESTRE: I
ORE DI LEZIONE: 52
Finalità corso / obiettivi formativi
Il corso introdurrà un insieme di tecniche per il progetto e la realizzazione di motori di ricerca.
In particolare saranno presentate tecniche di indicizzazione di testi, con accenni a indicizzazione di
documenti multimediali; saranno inoltre presentati alcuni modelli quantitativi per la determinazione
della stima (grado, o probabilità) di rilevanza di un documento rispetto alle necessità informative
dell'utente. Tra i modelli avanzati verranno presentati i “Language Model”.
Come sviluppo recente dell'IR saranno analizzati i motori di ricerca su Web. Il corso introdurrà
inoltre alcune applicazioni avanzate di IR, come l’IR multimediale e tecniche di personalizzazione
della ricerca.
Contenuti:
L'obiettivo del corso è fornire un'introduzione ai concetti fondamentali, ai modelli formali, e alle
tecniche per la realizzazione di sistemi per il reperimento automatico di documenti in forma digitale
(sistemi di "Information Retrieval", detti Motori di Ricerca o Motori di Ricerca su Web quando i
documenti da reperire sono costituiti da pagine Web). In questo contesto il principale problema da
affrontare è quello della valutazione della rilevanza dei documenti rispetto alle necessità
informative dell'utente. Al termine del corso lo studente sarà in grado di progettare tecniche per
l'indicizzazione e per il reperimento di testi semi-strutturati, e di utilizzare software "open source"
per definizione di applicazioni di Information Retrieval. Il laboratorio sarà finalizzato alla
realizzazione di una applicazione.
Argomenti corso
1
Introduzione all'Information Retrieval (IR).
• Documenti e necessità informative, e loro rappresentazione.
• Il concetto di rilevanza. Probabilità e parzialità.
• Efficienza, efficacia; valutazione dell'efficacia di un sistema di IR.
• Relevance feedback e riformulazione dell'interrogazione.
2
Introduzione al software open source per la definizione di motori di ricerca
3
Le tecniche di indicizzazione di testi
4
Modelli di sistemi di Information Retrieval: i modelli base (Booleano, Vettoriale, modelli
Probabilistici). Modelli avanzati.
5
I motori di ricerca su Web: crawling, link analysis e altri fattori per la stima della rilevanza
di pagine Web.
6
La valutazione dei motori di ricerca.
7
Temi ``avanzati'' di Information Retrieval
• Information retrieval di documenti strutturati.
• Cenni a Multimedia information retrieval
• Cenni alla Categorizzazione automatica di documenti.
• Personalizzazione della ricerca.
Bibliografia
Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information
Retrieval, Cambridge University Press. 2008.
Modalità d'esame
Prova scritta ed orale separate, realizzazione di un progetto di laboratorio.