Information Retrieval - Università degli Studi di Milano

Transcript

Information Retrieval - Università degli Studi di Milano
Materiale tratto dal
CORSO DI INFORMATION RETRIEVAL
Gabriella Pasi
Università degli Studi di Milano Bicocca
e-mail: [email protected]
Stefania Marrara
Information Retrieval
Problema “vecchio” in Informatica. Ha assunto grande
importanza con la nascita e lo sviluppo del WWW
Enorme e crescente quantità di
informazioni disponibili
Necessità di sistemi che supportino un
efficiente ed efficace reperimento di
informazioni pertinenti a specifiche necessità.
Stefania Marrara
Information Retrieval: le “radici”
dei motori di ricerca.
I motori di ricerca sono sistemi software
intensivamente usati su Web.
Cio’ che molti non sanno è che essi rappresentano la
punta dell’iceberg dell’Information Retrieval, una
disciplina fondata alla fine degli anni sessanta.
Motori di
ricerca
Information
Retrieval
Stefania Marrara
Ricerca su Web e Information
Retrieval
Classica ricerca in IR
1970s
1980s
1990s
….sopraggiunge il web
web searching
Stefania Marrara
2000s
Il problema dell’accesso automatico a
informazioni
Sviluppo di sistemi che aiutino l’utente a identificare
informazioni rilevanti (pertinenti) alle loro necessità
(informare: ridurre l’ignoranza). La definizione di tali
sistemi è basata sulla soluzione di un problema
decisionale: come identificare e “ordinare” informazione
che soddisfi le preferenze dell’utente? Occorre:
* interpretare il contenuto di testi, immagini, video,
audio
* interpretare le esigenze dell’utente
Ruolo centrale della nozione di rilevanza:
rilevanza la
rilevanza è una proprietà soggettiva: difficile da
definire e da misurare!Stefania Marrara
Principali tipologie di sistemi per
l’accesso a informazioni
Sistemi di Information Retrieval (Motori di ricerca)
Richiedono
Sistemi per la Gestione di Basi di Dati
Richiedono
La formulazione di una “query”
La formulazione di una “query”
Sistemi di Information Filtering
Profili utente, cioè descrizioni di esigenze specifiche
Richiedono
dinamicamente aggiornate, anche sulla base del
comportamento dell’utente (NO QUERY)
Stefania Marrara
Modalità di reperimento delle
informazioni
Tecnologia Pull
Tecnologia Push
L’utente richiede
esplicitamente le
informazioni in
modalità interattiva
3 modalità
L’utente viene
automaticamente
aggiornato con
informazioni di possibile
interesse
Browsing (ipertesti)
Retrieval (sistemi di IR)
Browsing e retrieval
(librerie digitali e
ricerche su web)
Stefania Marrara
agenti software
esempio: servizi di news,
e-commerce
filtering (retrieval)
fornisce all’utente
informazioni rilevanti per
un utilizzo differito
Definizione di Informazione
Nel 1948 Claude Elwood Shannon (1916-2001) pubblica la
monografia A Mathematical Theory of Comunication che è un primo
contributo all'inquadramento teorico del problema del trasferimento
dell'informazione.
“L'informazione
è legata alla capacità di estrapolare notizie
dall'ambiente per poterle poi riutilizzare per conquistare una posizione
di vantaggio.”
DEF 1: Informare: dare forma a qualcosa ⇒ eliminare l’incertezza,
l’ignoranza
DEF 2:
acquisizione di contenuto trasferito da un soggetto ad un altro
DEF 3: un insieme di dati + loro interpretazione
dato ⇒ elemento di informazione
L’informazione produce una variazione di conoscenza
Stefania Marrara
Definizione di Informazione
I dati sono quindi fatti elementari, informazioni
codificate, che hanno bisogno di essere interpretate
per arricchire la conoscenza
Esempio
dati: “Marco Pagani” ’4261’
Informazione = dati + interpretazione
Domanda implicita:
a) Chi è l’esercitatore del corso? Qual è il suo n° di
tel.?
b) “Qual è il Nome del dipendente? Qual è il suo
stipendio?
Nei sistemi per la gestione
di basi di dati le informazioni
Stefania Marrara
vengono rappresentate in modo essenziale, dai dati e da uno
schema concettuale che permette la loro interpretazione
Gestione automatica
dell’informazione
TESTI espressi in linguaggio naturale
FORMA
DELL’ INFORMAZIONE
SUONI e Registrazioni audio e video
GRAFICI en IMMAGINI, MAPPE
NUMERI, CODICI, SEGNALI
Problema tecnico:
GESTIONE
AUTOMATICA
DELL'INFORMAZIONE
come rappresentare
e manipolare l'informazione
negli elaboratori?
efficienza
Problema semantico:
il modo in cui l'informazione
viene sintetizzata e
memorizzata
conserva il suo
Stefania
Marrara
significato originario? efficacia
Dati relativi al 1996
160
140
120
100
80
Non strutturati
Strutturati
60
40
20
0
Volume delle
informazioni
Valore delle
informazioni
Stefania
Marrara
Dati relativi al 2006
160
140
120
100
80
Non Strutturati
Strutturati
60
40
20
0
Volume di
imformazioni
Valore delle
informazioni
Stefania
Marrara
Sistemi di Information Retrieval vs
Sistemi per la gestione di basi di dati
Motivazioni
I DBMS sono nati dalla necessità di gestire
ad
crescenti
quantità
di
dati
relativi
applicazioni aziendali tradizionali
I sistemi di IR sono nati dalla necessità di
gestire, classificare, reperire libri e articoli in
biblioteche/librerie grandi quantità di testi
Stefania Marrara
Sistemi di Information Retrieval vs
Sistemi per la gestione di basi di dati
DBMS
Reperimento di dati che soddisfano condizioni di selezione rigide,
espresse mediante un linguaggio di interrogazione (V,F)
Semantica dei dati e delle condizioni ben definita
Una singolo dato erroneo implica il fallimento della ricerca!
Information retrieval
Reperimento di informazioni circa un argomento o un tema
Semantica delle richieste e dei documenti vaga.
Piccoli errori nei risultati sono tollerabili
Un Sistema di IR :
interpreta il contento di documenti costruisce una
rappresentazione
genera un ordinamento (ranking) che riflette la rilevanza stimata
Concetto di rilevanza molto
Stefaniaimportante
Marrara
Sistemi per la gestione di basi di
dati
Modello
dei dati
DATI
DBMS
A
B
C
APPLICAZIONI
Caratteristiche:
Schema (descrizione intensionale della
struttura dei dati )
Istanze (descrizione estensionale del valore
attuale dei dati)
Modello di dati (permette di rappresentare i
dati in modo indipendente dal sistema):
relazionale
orientato ad oggetti
Gerarchico, ecc
Stefania Marrara
Definizione di Information Retrieval
Due componenti principali
Sorgente di
informazioni
= archivio di
documenti
Qualcuno con necessità
di informazioni
Decision
making
Interpretazione
soggettiva
Interpretazione
soggettiva
terza componente
Intermediario
che
interpreta
le
necessità
informative dell’utente e stima la rilevanza dei
Stefania Marrara
documenti rispetto a tali necessità.
Definizione di Information
Retrieval
“IR is the name for the process or method whereby a prospective user
of information is able to convert his need for information into an actual
list of citations to documents in storage containing information useful
to him. (. .. ). IR embraces the intellectual aspects of the description of
information and its specification for search, and also whatever
systems, techniques, and machines that are employed to carry out the
operation”. [Mooers 1951].
IR è la disciplina informatica che si occupa della memorizzazione e del
reperimento di documenti; il suo obbiettivo è la realizzazione di
sistemi software che permettano la memorizzazione di ingenti
quantità di documenti in un archivio, in modo tale da permettere
un’efficiente reperimento dei documenti rilevanti alle necessità
informative degli utenti.
Stefania Marrara
Glossario
Documento (d): unità di informazione reperibile, espressa in formato
libero (senza l’applicazione di schemi o formati specifici). I
documenti hanno un contenuto informativo.
• IR TESTUALE articoli scientifici, lettere, articoli di quotidiani,
legende di immagini o grafici, trascrizioni di audio
• IR MULTIMEDIALE immagini, grafici, audio (parlato o non parlato),
o video, . . . , memorizzato in formato digitale
Archivio (D) : insieme di documenti accessibili per mezzo di un IRS;
può essere statico (p.e. CD-ROM) o dinamico (p.e. librerie digitali e il
Web), centralizzato o distribuiti
Ingente dimensione: i sistemi distribuiti e la diffusione di supporti di
memoria come i CD-ROM hanno permesso la creazione di grandissime
basi di documenti (archivi) (p.e. da 106 a 109 di documenti). Questa
è la dimensione tipica degli archivi gestiti in IR;
Necessità infomativa (q):
(q) una necessità di informazione utile alla
soluzione di un problema, o di risorse utili per un dato obiettivo;
Rilevanza (RSV o Retrieval Status Value): ≈ pertinenza, utilità di
Stefania Marrara
un documento in accordo all’opinione
dell’utente, rispetto a una query.
Information Retrieval
Finalità: rappresentazione, memorizzazione,
organizzazione, e accesso a elementi d’informazione
(documenti – testuali o multimediali)
Problemi:
Esempio:
la rappresentazione del contenuto informativo dei documenti
(consideremo documenti testuali)
l’interpretazione delle necessità informative dell’utente
“trova tutti i documenti contenenti informazioni relative alla
diagnosi delle malattie esantematiche nei bambini a cura di
associazioni pediatriche italiane”
Obiettivo primario di un sistema di IR :
“Reperire tutti i documenti che sono rilevanti per l’utente
trascurando i documenti non rilevanti.”
Stefania Marrara
Sistema di Information Retrieval
Documents
Necessità Informative
Query
Documenti reperiti
Informazioni stimate
rilevanti per l’utente
Sistema di Information
Retrieval
Soggettività!!!!
Obbiettivo primario di un sistema di IR:
“Reperire tutti i documenti che sono rilevanti per l’utente e
minimizzando il reperimento di documenti non rilevanti.”
COME???
Stefania Marrara
Struttura base di un IRS
INDICIZZAZIONE
ARCHIVIO DI
DOCUMENTI
Tipicamente testi non
strutturati o semistrutturati
RAPPRESENTAZIONE
FORMALE DEI DOCUMENTI
MECCANISMO
DI MATCHING
DOCUMENTI STIMATI
RILEVANTI
FORMULAZIONE
RAPPRESENTAZIONE
DELLA QUERY
DELLA QUERY
Un IRS è basato su un modello matematico
Stefania Marrara
Off line
On line
Componenti di un Sistema di
Information Retrieval
Archivio di documenti il documento è l'unità di
informazione reperibile. Può essere costituito da un testo
in forma narrativa (testuale) o essere composto da parti
narrative, pittoriali, codificate, etc. (multimediale);
Rappresentazione formale dei documenti sintetizza
il contenuto
informativo dei documenti. E’ ottenuta
mediante il processo indicizzazione;
Linguaggio di query in una query sono espresse le
condizioni per la selezione dei documenti di interesse
per l'utente;
Meccanismo di Confronto (matching) confronta la
rappresentazione dei Documenti archiviati con le
Stefania Marrara
condizioni di selezione espresse nella query.
Modelli di IR
Un sistema di IR è basato su un modello matematico che
fornisce una descrizione formale:
Del documento
Della query
Del modo in cui confrontare rappresentazioni di query e
documenti per effettuare una stima della rilevanza dei
documenti e produrre la lista dei documenti stimati
rilevanti.
N.B. un sistema di IR semplifica la realizzazione dell’attività di
retrieval i risultati prodotti non sono « perfetti » (stima di
rilevanza)
Va notato che l’uso della stessa tecnica di rappresentazione di
documenti e query garantisce un matching corretto;
Stefania Marrara
Il processo di indicizzazione
Problema: come descrivere il contenuto “semantico” di un
documento in un modo automaticamente gestibile? Il pocesso di
indicizzazione è basato sull’estrazione di “elementi” (feature) che
costituiscono la base della descrizione (rappresentazione) del
documento. Per i testi tali elementi (detti indici) sono
generalmente parole. I documenti sono rappresentati come insiemi
(pesati) di parole.
(!! Idea concepita negli anni 60 e ancora di punta !!!!)
{Information, retrieval, computer, science,
discipline, keywords……}
“The experimental evidence accumulated over the past 20
years indicates that text indexing systems based on the
assignment of appropriately weighted single terms
produce retrieval results that are superior than those
obtainable with other more elaborate text representations.
Stefania Marrara
These results depend crucially
on the choice of effective
term-weighting systems.” (Salton, 1988)
Formulazione di richieste
(linguaggi di interrogazione)
Query semplici
Generalmente composte di due o tre,
fino a un massimo di 10-12, parole
L’utente
(keywords)
sintetizza le
es., ricerche su web
sue necessità
Query Booleane
informative
Es. “neural networks” AND immagini
mediante
parole chiave
Query con contesto
operatori di prossimità, frasi di
ricerca
Query sul contenuto e sulla struttura
Query in Linguaggio Naturale
Stefania Marrara
IR: Confronto tra
rappresentazione dei documenti e query
SCOPO: Reperire i documenti rilevanti per l’utente, ossia
pertinenti rispetto alle necessità informative espresse in
una query (la rilevanza di un documento e’ relativa alla
query formulata).
Confronto esatto:
Rilevante/ Non Rilevante
Confronto parziale:
Basato su un confronto “parziale” tra documento e
query (ad. es. similarità misura della vicinanza della
query al documento)
I documenti “sufficientemente vicini” alla query vengono
reperiti.
E’ necessario definire un metodo per valutare la rilevanza
(dipende dal modello di Informazion Retrieval)
Stefania Marrara
Misure di Efficacia del Retrieval
Precisione = |Rilevanti e Reperiti|
|Reperiti|
Richiamo = |Rilevanti e Reperiti|
Stefania Marrara |Rilevanti|
Difficoltà dell’Information Retrieval
L’ Information retrieval è caratterizzato da:
Incompletezza della rappresentazione dei
documenti
soggettività del concetto di rilevanza
Ambiguità del significato dei termini
Vaghezza delle richieste utente
Incertezza della correttezza del risultato
Approssimazione del meccanismo di confronto
E’ un’attività che necessita di essere modellata con strumenti
formali adatti a trattare imprecisione e incertezza
“IR deve cercare di soddisfare necessità di informazione
espresse in modo vago, impreciso mediante le ambiguità del
linguaggio naturale, e deve confrontarle, in un modo
approssimativo con le informazioni contenute in un
documento, ed espresse
mediante lo stesso linguaggio
Stefania Marrara
naturale.” (Smeaton, 1997)
Ambiti di sviluppo e contesti
applicativi dell’IR
Digital Libraries
Online Public Access Catalogs (OPAC)
NOTIS della Endeavor IS,
Millennium della Innovative Interface Inc.,
Excalibur della EOSi
Produttori/Venditori di basi di dati:
DIALOG www.dialog.com (500 databases es: New York times),
LEXIS (documenti legali), NEXIS (documenti su editoria e
commercio) (1.3 miliardi di documenti, 1.3 milioni di utenti,
120 milioni di ricerche all’anno)
OCLC (Online Computer Library Center 70 databases e 1.5
millioni di articoli completi (full text))
H.W. Wilson (40 database per la scuola)
National Library of Medicine (Medline database)
Web (search engines: Altavista, Google, Yahoo, ecc
Stefania Marrara
E-commerce (Amazon, case editrici, ecc.)