Gabriella Pasi - Information Retrieval Laboratory

Transcript

Gabriella Pasi - Information Retrieval Laboratory
CORSO DI INFORMATION RETRIEVAL
Gabriella Pasi
Università degli Studi di Milano Bicocca
e-mail: [email protected]
Programma del corso
1. Introduzione
• Il problema dell’accesso a informazioni
• Tipologie
p g di sistemi p
per l'accesso a informazioni ((DBMS,, Sistemi di
Information Retrieval, Sistemi di Information Filtering)
• Il concetto di Rilevanza, la sua soggettività, probabilità e parzialità.
• Valutazione sperimentale di sistemi di IR: efficienza, efficacia
2. Il processo di indicizzazione
‡ Gli indici, specificità, esaustività
‡ Processo di estrazione automatica di termini indice: Full Text Indexing
‡ Associazioni di pesi ai termini indice
‡ Strutture dati per organizzazione di indici
Programma del corso (segue)
3. Modelli base di IR
• Modelli matematici di IR.
• Il modello Booleano.
• Ill modello
d ll vettoriale.
i l
• I modelli probabilistici.
4. Modelli
4
M d lli avanzati
ti di IR
• Introduzione alla teoria dei fuzzy set.
• I modelli basati sulla teoria dei fuzzy set.
• I modelli vettoriali estesi.
estesi
5. Valutazione di sistemi di IR
Efficienza ed efficacia
Recall, Precision e altre misure
TREC collections
Programma del corso (segue)
6. IR SU WEB
• Sistemi distribuiti
• I motori di ricerca
• I meta-motori di ricerca
7. Meccanismi associativi in IR
• Tesauri
• algoritmi di clustering
• Relevance Feedback
8. Information Filtering
9. Argomenti avanzati
•
•
Multimedia IR
XML e IR
Lib i di testo per IR
Libri
R
Non esiste un unico libro di testo che possa essere
considerato completamente soddisfacente. I testi
considerati per questo corso sono i seguenti (in
ordine
di
di preferenza):
f
)
– Ricardo Baeza-Yates e Berthier Ribeiro-Neto,
M d
Modern
i f
information
ti
retrieval,
t i
l Addison
Addi
W l
Wesley,
Reading, US, 1999.
– Soumen Chakrabarti, Mining the Web, Morgan
Kaufmann, San Francisco, US, 2003.
– Ian H. Witten, Alistair
l
Moffat,
ff
and
d Timothy
h C.
C
Bell, Managing gigabytes, 2nd Edition, Morgan
Kaufmann,, San Francisco,, US,, 1999.
Lib i di testo per IR
Libri
R
Modern Information
Retrieval,
R. Baeza-yates and B.
Ribeiro-Neto.,,
Addison-Wesley and ACM
Press, 1999, ISBN: 0
0-201201
39829-X
Christopher D. Manning,
Manning, Prabhakar Raghavan and Hinrich Schütze,
Schütze,
Introduction to Information Retrieval,
Retrieval, Cambridge University Press.
2007.
2007
http://www--csli.stanford.edu/~schuetze/informationhttp://www
csli.stanford.edu/~schuetze/information-retrievalretrievalbook.html
Information
f
i R
Retrieval
i l
Problema “vecchio” in Informatica. Ha assunto grande
importanza
p
con la nascita e lo sviluppo
pp del WWW
Enorme e crescente quantità di
informazioni disponibili
p
Necessità di sistemi che supportino un
efficiente ed efficace reperimento di
i f
informazioni
i i pertinenti
ti
ti a specifiche
ifi h necessità.
ità
Information Retrieval: le “radici” dei
motori di ricerca
ricerca..
I motori di ricerca sono sistemi software
intensivamente usati su Web.
pp
la
Cio’ che molti non sanno è che essi rappresentano
punta dell’iceberg dell’Information Retrieval, una
disciplina fondata alla fine degli anni sessanta.
Motori di
ricerca
Information
Retrieval
Ricerca su Web e Information Retrieval
Classica ricerca in IR
1970
1970s
1980
1980s
1990
1990s
….sopraggiunge
i
il web
b
web searching
2000
2000s
Il problema dell’accesso automatico a
informazioni
Sviluppo di sistemi che aiutino ll’utente
utente a identificare
informazioni rilevanti (pertinenti) alle loro necessità
((informare: ridurre l’ignoranza).
g
) La definizione di tali
sistemi è basata sulla soluzione di un problema
decisionale: come identificare e “ordinare” informazione
che soddisfi
f le preferenze
f
dell’utente? Occorre:
* interpretare il contenuto di testi, immagini, video,
audio
* interpretare le esigenze dell’utente
Ruolo centrale della nozione di rilevanza
rilevanza: la
rilevanza è una proprietà soggettiva: difficile da
definire e da misurare!
Principali tipologie di sistemi per l’accesso
a informazioni
„
Sistemi di Information Retrieval (Motori di ricerca)
Richiedono
„
Sistemi per la Gestione di Basi di Dati
Richiedono
„
La formulazione di una “query”
La formulazione di una “query”
Sistemi di Information Filtering
Profili utente, cioè descrizioni di esigenze specifiche
Richiedono
gg
, anche sulla base del
dinamicamente aggiornate,
comportamento dell’utente (NO QUERY)
Modalità di reperimento delle
i f
informazioni
i i
Tecnologia Pull
‡
‡
L’utente richiede
esplicitamente le
informazioni in
modalità
d lità interattiva
i t
tti
3 modalità
„
„
„
Browsing
B
i
(ipertesti)
(i
t ti)
Retrieval (sistemi di IR)
Browsing e retrieval
(librerie digitali e
ricerche su web)
Tecnologia Push
‡
L’utente viene
automaticamente
aggiornato con
i f
informazioni
i i di possibile
ibil
interesse
„
agenti software
‡
„
esempio: servizi di news,
e-commerce
filtering (retrieval)
fornisce all’utente
informazioni rilevanti per
un utilizzo differito
D fi i i
Definizione
di Informazione
I f
i
Nel 1948 Claude Elwood Shannon (1916-2001)
(1916 2001) pubblica la
monografia A Mathematical Theory of Comunication che è un primo
contributo all'inquadramento teorico del problema del trasferimento
dell'informazione.
“L'informazione
è legata alla capacità di estrapolare notizie
dall'ambiente per poterle poi riutilizzare per conquistare una posizione
di vantaggio.
vantaggio ”
DEF 1: Informare: dare forma a qualcosa ⇒ eliminare l’incertezza,
l’ignoranza
DEF 2:
acquisizione di contenuto trasferito da un soggetto ad un altro
DEF 3: un insieme di dati + loro interpretazione
dato ⇒ elemento di informazione
L’i f
L’informazione
i
produce
d
una variazione
i i
di conoscenza
D fi i i
Definizione
di Informazione
f
i
I dati sono quindi fatti elementari,
elementari informazioni
codificate, che hanno bisogno di essere interpretate
per arricchire la conoscenza
Esempio
dati: “Marco Pagani” ’4261’
Informazione = dati + interpretazione
Domanda implicita:
a) Chi è l’esercitatore del corso? Qual è il suo n° di
tel ?
tel.?
b) “Qual è il Nome del dipendente? Qual è il suo
stipendio?
Nei sistemi per la gestione di basi di dati le informazioni
vengono rappresentate in modo essenziale, dai dati e da uno
schema concettuale che permette la loro interpretazione
G i
Gestione
automatica
i d
dell’informazione
ll’i f
i
TESTI espressi in linguaggio naturale
FORMA
DELL’’ INFORMAZIONE
SUONI e Registrazioni audio e video
GRAFICI en IMMAGINI, MAPPE
NUMERI, CODICI, SEGNALI
Problema tecnico:
GESTIONE
AUTOMATICA
DELL'INFORMAZIONE
DELL
INFORMAZIONE
come rappresentare
e manipolare l'informazione
negli elaboratori?
Æ efficienza
Problema semantico:
il modo in cui l'informazione
viene sintetizzata e
memorizzata conserva il suo
significato originario?
Æ efficacia
Sistemi di Information Retrieval vs
Si
Sistemi
i per la
l gestione
i
di b
basii di d
datii
Motivazioni
I DBMS sono nati dalla necessità di gestire
crescenti
quantità
di
dati
relativi
ad
applicazioni aziendali tradizionali
I sistemi di IR sono nati dalla necessità di
gestire classificare,
gestire,
classificare reperire libri e articoli in
biblioteche/librerie Æ grandi quantità di testi
Sistemi di Information Retrieval vs
Sistemi per la gestione di basi di dati
‡
DBMS
„
„
‡
Reperimento di dati che soddisfano condizioni di selezione rigide,
espresse mediante un linguaggio di interrogazione (V,F)
S
Semantica
ti dei
d i dati
d ti e d
delle
ll condizioni
di i i ben
b
d
definita
fi it
Information retrieval
„
„
„
Reperimento di informazioni circa un argomento o un tema
Semantica delle richieste e dei documenti vaga.
Piccoli errori nei risultati sono tollerabili
Un Sistema di IR :
„
„
„
interpreta il contento di documenti Æ costruisce una
rappresentazione
genera un ordinamento (ranking) che riflette la rilevanza stimata
Concetto di rilevanza molto importante
Si
Sistemi
i per lla gestione
i
di b
basii di d
datii
Modello
dei dati
DATI
DBMS
A
‡
B
Caratteristiche:
„
„
„
C
APPLICAZIONI
Schema (descrizione intensionale della
struttura dei dati )
Istanze (descrizione estensionale del valore
attuale dei dati)
Modello di dati (permette di rappresentare i
p
dal sistema):
)
dati in modo indipendente
‡
‡
‡
relazionale
orientato ad oggetti
Gerarchico, ecc
Definizione di Information Retrieval
Due componenti principali
Sorgente di
informazioni
= archivio di
documenti
Qualcuno con necessità
di informazioni
Decision
making
Interpretazione
soggettiva
Interpretazione
soggettiva
terza componente
Intermediario
che
interpreta
le
necessità
informative dell’utente e stima la rilevanza dei
documenti rispetto a tali necessità.
D fi i i
Definizione
di Information
I f
i R
Retrieval
i l
“IR is
i the
th name for
f the
th process or method
th d whereby
h
b a prospective
ti
user
of information is able to convert his need for information into an actual
list of citations to documents in storage containing information useful
to him.
him (.
( .. ).
) IR embraces the intellectual aspects of the description of
information and its specification for search, and also whatever
systems, techniques, and machines that are employed to carry out the
operation”. [Mooers 1951].
operation
1951]
IR è la disciplina informatica che si occupa della memorizzazione e del
reperimento di documenti; il suo obbiettivo è la realizzazione di
sistemi software che permettano la memorizzazione di ingenti
quantità di documenti in un archivio, in modo tale da permettere
un’efficiente reperimento dei documenti rilevanti alle necessità
informative degli utenti.
Glossario
Documento (d): unità di informazione reperibile, espressa in formato
lib
libero
(
(senza
l’
l’applicazione
li
i
di schemi
h
i o formati
f
ti specifici).
ifi i) I
documenti hanno un contenuto informativo.
• IR TESTUALE Æ articoli scientifici, lettere, articoli di quotidiani,
legende di immagini o grafici,
grafici trascrizioni di audio
• IR MULTIMEDIALE Æ immagini, grafici, audio (parlato o non parlato),
o video, . . . , memorizzato in formato digitale
A hi i (D) : insieme
Archivio
i i
di documenti
d
ti accessibili
ibili per mezzo di un IRS;
IRS
può essere statico (p.e. CD-ROM) o dinamico (p.e. librerie digitali e il
Web), centralizzato o distribuiti
Ingente dimensione:
dimensione: i sistemi distribuiti e la diffusione di supporti di
memoria come i CD-ROM hanno permesso la creazione di grandissime
basi di documenti (archivi) (p.e. da 106 a 109 di documenti). Questa è
la dimensione tipica degli archivi gestiti in IR;
Necessità infomativa (q):
(q) una necessità di informazione utile alla
soluzione di un problema, o di risorse utili per un dato obiettivo;
Rilevanza (RSV o Retrieval Status Value): ≈ pertinenza, utilità di
un documento in accordo all’opinione dell’utente, rispetto a una query.
I f
Information
i R
Retrieval
i l
‡
‡
Finalità:
Fi lità rappresentazione,
Finalità
t i
memorizzazione,
i
i
organizzazione, e accesso a elementi d’informazione
(documenti – testuali o multimediali)
Problemi:
P bl
Problemi
i:
„
„
‡
Esempio::
Esempio
„
‡
la rappresentazione del contenuto informativo dei documenti
(consideremo documenti testuali)
l’interpretazione delle necessità
à informative dell’utente
“trova tutti i documenti contenenti informazioni relative alla
diagnosi delle malattie esantematiche nei bambini a cura di
associazioni pediatriche italiane”
Obiettivo primario di un sistema di IR :
„
“Reperire tutti i documenti che sono rilevanti per l’utente
trascurando i documenti non rilevanti.”
Sistema di Information Retrieval
Documeents
Necessità Informative
Query
Documenti reperiti
Informazioni stimate
rilevanti per l’utente
Sistema di Information
Retrieval
Soggettività!!!!
Obbiettivo primario di un sistema di IR:
“Reperire tutti i documenti che sono rilevanti per l’utente e
minimizzando il reperimento di documenti non rilevanti.
rilevanti ”
COME???
Struttura base di un IRS
INDICIZZAZIONE
ARCHIVIO DI
DOCUMENTI
Tipicamente
p
testi non
strutturati o semistrutturati
RAPPRESENTAZIONE
FORMALE DEI DOCUMENTI
DOCUMENTI STIMATI
RILEVANTI
FORMULAZIONE
DELLA QUERY
MECCANISMO
DI MATCHING
RAPPRESENTAZIONE
DELLA QUERY
Un IRS è basato su un modello matematico
Off line
On line
Componenti di un Sistema di Information
Retrieval
Archivio di documenti il documento è l'unità di
informazione reperibile. Può essere costituito da un testo
in forma narrativa (testuale) o essere composto da parti
narrative, pittoriali, codificate, etc. (multimediale);
Rappresentazione formale dei documenti sintetizza
il contenuto
informativo dei documenti. E’ ottenuta
mediante il processo indicizzazione;
Linguaggio di query in una query sono espresse le
condizioni per la selezione dei documenti di interesse
per l'utente;
Meccanismo di Confronto (matching) confronta la
rappresentazione dei Documenti archiviati con le
condizioni di selezione espresse nella query.
M d lli di IR
Modelli
Un sistema
U
i t
di IR è basato
b
t su un modello
d ll matematico
t
ti che
h
fornisce una descrizione formale:
‡ Del documento
‡ Della query
‡ Del modo in cui confrontare rappresentazioni di query e
per effettuare una stima della rilevanza dei
documenti p
documenti e produrre la lista dei documenti stimati
rilevanti.
N.B. un sistema di IR semplifica la realizzazione dell
dell’attività
attività di
retrieval Æ i risultati prodotti non sono « perfetti » (stima di
rilevanza)
Va notato che l’uso della stessa tecnica di rappresentazione di
documenti e query garantisce un matching corretto;
Il processo di indicizzazione
Problema: come descrivere il contenuto “semantico”
semantico di un
documento in un modo automaticamente gestibile? Il pocesso di
indicizzazione è basato sull’estrazione di “elementi” (feature) che
costituiscono la base della descrizione (rappresentazione) del
documento. Per i testi tali elementi (detti indici) sono
generalmente parole. I documenti sono rappresentati come insiemi
(
(pesati)
i) di parole.
l
(!! Idea concepita negli anni 60 e ancora di punta !!!!)
{Information, retrieval, computer, science,
discipline, keywords……}
“The experimental
“Th
i
t l evidence
id
accumulated
l t d over the
th pastt 20
years indicates that text indexing systems based on the
assignment of appropriately weighted single terms
produce retrieval results that are superior than those
obtainable with other more elaborate text representations.
These results depend crucially on the choice of effective
term-weighting systems.” (Salton, 1988)
Formulazione di richieste
(li
(linguaggi
i di iinterrogazione)
i
)
‡
‡
‡
‡
‡
Query semplici
„ Generalmente composte di due o tre,
fino a un massimo di 10
10-12
12, parole
L’utente
(keywords)
sintetizza le
‡ es., ricerche su web
sue necessità
Query Booleane
informative
mediante
‡ Es. “neural networks” AND immagini
parole
l chiave
hi
Query con contesto
„ operatori di prossimità, frasi di
ricerca
Query sul contenuto e sulla struttura
Query in Linguaggio Naturale
IR: Confronto tra
rappresentazione dei documenti e query
SCOPO: Reperire
SCOPO
R
i i documenti
d
ti rilevanti
il
ti per l’utente,
l’ t t ossia
i
pertinenti rispetto alle necessità informative espresse in
una query (la rilevanza di un documento e’ relativa alla
query formulata).
formulata)
‡
Confronto esatto:
„
‡
Rilevante/ Non Rilevante
Confronto parziale:
„
„
„
Basato su un confronto “parziale”
parziale tra documento e
query (ad. es. similarità misura della vicinanza della
query al documento)
I documenti “sufficientemente vicini” alla query vengono
reperiti.
iti
E’ necessario definire un metodo per valutare la rilevanza
(dipende dal modello di Informazion Retrieval)
Misure di Efficacia del Retrieval
Precisione = |Rilevanti e Reperiti|
|
|Reperiti|
i i|
Richiamo = |Rilevanti e Reperiti|
|Rilevanti|
Difficoltà d
dell’Information Retrieval
L’ Information retrieval è caratterizzato da:
L
„ Incompletezza della rappresentazione dei
documenti
„ soggettività del concetto di rilevanza
„ Ambiguità del significato dei termini
„ Vaghezza delle richieste utente
„ Incertezza della correttezza del risultato
„ Approssimazione del meccanismo di confronto
E un
E’
un’attività
attività che necessita di essere modellata con strumenti
formali adatti a trattare imprecisione e incertezza
“IR d
deve cercare di soddisfare
ddi f
necessità
i à di iinformazione
f
i
espresse in modo vago, impreciso mediante le ambiguità del
linguaggio naturale, e deve confrontarle, in un modo
approssimativo con le informazioni contenute in un documento,
documento
ed espresse mediante lo stesso linguaggio naturale.”
(Smeaton, 1997)
Ambiti di sviluppo e contesti
applicativi dell
dell’IR
IR
Digital
g
Libraries
Online Public Access Catalogs (OPAC)
Millennium della Innovative Interface Inc.,
Excalibur della EOSi
Produttori/Venditori di basi di dati:
DIALOG www.dialog.com
g
((500 databases es: New York times),
),
LEXIS (documenti legali), NEXIS (documenti su editoria e
commercio) (1.3 miliardi di documenti, 1.3 milioni di utenti,
120 milioni di ricerche all’anno)
OCLC (Online Computer Library Center 70 databases e 1.5
millioni di articoli completi (full text))
H.W. Wilson (40 database per la scuola)
National Library of Medicine (Medline database)
Web (search engines: Altavista, Google, Yahoo, ecc
E-commerce (Amazon, case editrici, ecc.)
Documenti : caso + semplice
Unità
U
ità reperibili
ibili di Dimensione
Di
i
arbitraria
bit i
testo in formato libero
„
„
codifica EBCDIC, ASCII (8 bit), UNICODE (16 bit)
ecc. Æ lingua
composto da stringhe di caratteri di un alfabeto
ecc;
‡
Es. sequenze del
E
d l genoma, formule
f
l di composti
ti chimici,
hi i i
Parole in linguaggio naturale
Esempi
articoli di quotidiani, di riviste, messaggi,
lettere, referti medici, pagine web, ecc..
Caratteristiche dei Documenti
documento
Testo +
struttura +
altri media (immagini, suoni, ..) +
metadati
Cos’è un documento?
metadati
semantica
stile
Metadati
Tratto da
htt //
http://www.w3.org/Metadata/Activity
3
/M t d t /A ti it
“Metadata
is information about information - labeling, cataloging and
descriptive information structured in such a way that allows pages to be
properly searched and processed in particular by computer. In other
words, what is now very much needed on the Web is metadata.
W3C's Metadata Activity is concerned with ways to model and encode
metadata. A particular priority of W3C is to use the Web to document
the meaning of the metadata.
metadata Our strong interest in metadata has
prompted development of the Resource Description Framework (RDF)
and Ontology Web Language (OWL) as W3C Recommendations”
Metadati
I metadati associati a un documento
sono dati relativi al documento:
metadati descrittivi (Dublin Core Metadata Set):
relativi alla creazione del documento
es: titolo, autori, data, lunghezza (in pagine,
parole, bytes, ecc.), genere (libro, articolo, memo,
mail, ecc)
metadati semantici
relativi all’argomento trattato dal documento
es: Library
Lib
off C
Congress subject
bj t codes,
d
keywords controllate estratte da un’ontologia
Formati per documenti testuali
Nei sistemi di IR classici i documenti dovevano venire
rappresentati in un formato “interno” per poter essere
indicizzati e gestiti
1° OPERAZIONE:
1
(file sorgente ÆFILE DI INPUT O di GENERAZIONE)
Documenti scritti con word-processor
p
comuni:
•Word
•TeX, RTF, HTML, XML ( Rich Text Format) (formato ASCII)
Formati per la visualizzazione e la stampa:
•PDF (Portable Document Format)
•MIME (Multipurpose Internet Mail Exchange) per le e-mail
e mail
supporta varie codifiche di caratteri
Formati compressi:
•ARJ, ZIP (Winzip, Gzip)
Compressione
C
p
d
dei d
documenti testuali
Necessaria per:
•
ottimizzare occupazione di spazio;
•
ridurre i tempi di trasmissione nell’ IR distribuito;
Problemi
critici
:
tempi
di
compressione
e
decompressione. Alcuni tipi di compressione permettono il
“matching compresso”
Formati
F
ti compressii senza perdita
dit di informazione
i f
i
Compressione di caratteri o di parole Æ riduzione n bit
utili per rappresentare il carattere o la parola
Compression rate
(riduzione al 25% -da 8 bit a 2- bit molto buona,
riduzione
id i
all 45% buona)
b
)
Documenti [semi]-strutturati
Definizioni
‡ Un documento strutturato è composto da sezioni
distinte , testuali o multimediali, di lunghezza
variabile. Le sezioni sono sequenze di caratteri
omogenee rispetto
i
tt all’argomento
ll’
t che
h trattano.
t tt
‡ Gli
archivi di documenti strutturati, sono
collezioni di documenti che hanno una struttura
rigidamente fissata, archivi semi-strutturati sono
caratterizzati da irregolarità nella struttura, ad
esempio
i i documenti
d
ti su web.
b Si assume che
h ciascun
i
documento contenga un numero prefissato di
sezioni comuni a tutti ((es: URL,, Titolo,, Testo).
)
Documenti semi strutturati
Documenti non strutturati
Documenti strutturati
Documenti con struttura omogenea
Documento: è una sequenza di sezioni (campi) fissi non sovrapposti
Es: una mail ha i seguenti campi: sender, receiver, date, subject e un
corpo.
d t
data
text
campi
text
text
I campii sono delimitati
d li it ti dai
d i tag
t (per
(
l’individuazione)
l’i di id
i
)
Formati dei Documenti semi-strutturati
semi strutturati
‡
‡
I documenti [semi]-strutturati di una collezione sono conformi a
un modello di dati semistrutturati (Abiteboul et al. 2000)
U modello
Un
d ll di dati
d ti semistrutturati
i t tt
ti è d
definito
fi it mediante
di t un
metalinguaggio.
„ Ad es. un documento scritto in HTML è un istanza di un
modello
d ll d
di d
dati semistrutturati
I
d
documenti
i
[
[semi]-strutturati
i]
i
possono
essere
rappresentati da grafi diretti in cui i nodi sono le sezioni
(sottoparti del documento) e le connessioni tra nodi le
relazioni tra le sottoparti.
Linguaggi per la codifica di documenti
semi-strutturati
i t tt ti
I linguaggi di markup sono stati definiti per
permettere di descrivere mediante comandi testuali
inseriti nel testo di un documento istruzioni di
formattazione, di strutturazione, e attributi del testo.
SGML (Standard Generalized Markup Language
ISO 8879) è il metalinguaggio standard per la
d fi i i
definizione
di linguaggi
li
i di markup.
k
„
Le istruzioni di marcatura sono chiamate Tag e
delimitano la parte di testo a cui sono applicate
Linguaggi di codifica
di documenti semi-strutturati
‡
HTML è un’istanza di SGML ed è diffuso su web per la
rappresentazione di documenti strutturati; tuttavia permette una
strutturazione sintattica e non semantica dell’informazione.
I tag hanno la funzione di definire l’aspetto tipografico del testo
anche se spesso sono usati per caratterizzare una struttura
semantica implicita del documento
‡
XML (eXtensible Markup Language) e' un sottoinsieme di
SGML adatto
d
a rappresentare documenti
d
strutturati concepiti
come aggregazioni di unità indipendenti, chiamate entità o
oggetti, che contengono l'informazione.
‡
Ci sono diverse istanze (specilizzazioni di XML) a contesti
applicativi es. NewsML per notizie giornalistiche, GML per dati
georiferiti ecc)
Documenti semi-strutturati in XML
Specifiche di XML in Italiano tradotte dal sito W3C
http://www.xml.it:23456/XML/REC-xml-19980210-it.html#charencoding
1)
Si definiscono dei vincoli sulla possibile struttura dei
documenti XML di una collezione
1) A tale scopo si crea il DTD (Document Type
Definition) (La specifica del DTD è opzionale in
XML) Lo scopo di un Document Type Definition
(definizione del tipo di documento) è quello di definire le
componenti ammesse nella costruzione di un documento
XML.
XML schema
h
2) Si creano i documenti della collezione. File XML. Ogni
documento è un
un’istanza
istanza del DTD e può essere
rappresentato da un grafo
per specificare
p
l’aspetto
p
3)) Si creano i file di stile p
tipografico dei documenti. File XSL (eXtensible
Stylesheet Language)
2)
Documento XML
E’ un albero ordinato etichettato i cui nodi sono
elementi delimitati da inizio e fine tag:
<nometag>
</nometag>
Può essere validato da un DTD.
Il Document Object Model è un insieme standard di
funzioni impiegato per manipolare i file XML da un
linguaggio di programmazione.
Document Type
yp Definition
DTD - Esempio
<!DOCTYPE TechRepDip
p p[
<!ELEMENT TechRepDip (Intestazione, Sezione+, Bibliografia?)>
<!ELEMENT Intestazione (Numero, Data, Titolo, Autore+, Sommario?)>
<!ELEMENT Data
(Giorno?, Mese, Anno)>
<!ELEMENT Autore
(Cognome, Nome+)>
<!ELEMENT Sezione
(TitoloSezione, Testo?, Sezione*)>
<!ELEMENT Bibliografia
bl
f
(
(VoceBiblio)+>
bl )
<!ELEMENT Numero
(#PCDATA)>
...
<!ELEMENT V
VoceBiblio
Bibli
(#PCDATA)>
<!ATTLIST Sezione id ID #REQUIRED
num NMTOKEN #IMPLIED
stato (finale | provvisorio) "finale" >
<!ENTITY DIS
"Dipartimento
Dipartimento di Informatica e Sistemistica">
Sistemistica >
<!ENTITY SEZIONE1 SYSTEM "sezione1.xml>
<!ENTITY SEZIONE2 "<Sezione>Ancora da scrivere.</Sezione>">
]>
Rappresentazione di un documento XML
Ad ogni documento XML corrisponde una struttura
a grafo Æ generalmente semplificata in albero:
‡ ad ogni
g elemento corrisponde
p
un nodo interno
‡ al testo libero corrispondono le foglie
‡ i figli di un nodo (elemento) sono gli elementi o il
testo in esso contenuti
‡ il modello ad albero può essere esteso anche ad
attributi, commenti, istruzioni, ...
Il Document Object Model fornisce un'API per manipolare i nodi
dell'albero: introduce un livello di astrazione tra il documento
XML e l'applicazione che lo deve utilizzare/elaborare
Documenti XML nella collezione INEX
12 000 articoli di riviste IEEE
12.000
article
fm
ti
Ieee
trans on
Syst….
bdy
atl
Image
analysis
sec
st
introduction
p
This
paper
…
Indicizzazione di documenti
testuali
‡
‡
‡
‡
Materiale tratto da:
Modern Information Retrieval by Ricardo Baeza-Yates and Berthier Ribeiro-Neto
http://www.sims.berkeley.edu/~hearst/irbook/
Capitoli 7.1-7.3 8.1-8.3
I
Introduction
d i to M
Modern
d
IInformation
f
i R
Retrieval
i
l by
b G
Gerard
dS
Salton
l
and
d Mi
Michael
h l JJ. M
McGill,
Gill
McGraw-Hill, 1983.
Generazione di un archivio
di Documenti Testuali
•E’
E’ eseguita off-line
off line
•necessaria per accelerare il reperimento dei
documenti
E’ un processo che esegue le seguenti attività:
Localizzazione :
•inserimento dei documenti nella collezione
•manuale, semiautomatica, automatica
Decodifica Formato:
•Riduzione del documento a stringhe
Indicizzazione :
•rappresenta il contenuto informativo dei documenti
Generazione di struttura dati opportuna :
•Memorizza in una struttura dati gli indici e i
riferimenti ai documenti
C
Come
rappresentare
t id
documenti?
ti?
Tipicamente ll’indicizzazione
indicizzazione genera un insieme di termini indice
(possibilmente pesati) come elementi base della rappresentazione
formale di un documento (o di una query).
Nell’IR testuale gli indici possono essere:
1. parole automaticamente estratte dal documento;
2 radici di parole (per esempio class-) automaticamente
2.
estratte dal documento. Questa opzione è la più frequente;
3. frasi (ad esempio “classificazione di processi industriali”)
automaticamente estratte dal documento. Questo tipo di
indici non hanno dato risultati migliori di 1 e 2;
4. parole (o frasi) estratte da un vocabolario controllato;
5. metadati (ad esempio titolo, autori, data di creazione ecc. )
Indicizzazione automatica di
d
documenti
ti testuali
t t li
L’indicizzazione automatica (automatic indexing) di un
documento
testuale
è
il
processo
che
esamina
automaticamente
t
ti
t gli
li oggetti
tti informativi
i f
ti i che
h compongono il
documento e, utilizzando degli algoritmi appositi, produce
una lista di termini indici ((index terms).
)
Questa lista può essere utilizzata per una rappresentazione
più compatta del contenuto informativo del documento di
partenza Tipicamente: indicizzazione full-text.
partenza.
full text
I termini indice sono utilizzati come surrogati per la
rappresentazione del documento originale e, quindi,
possono essere utilizzati al suo posto durante la fase di
recupero.
L’uso
L
uso degli indici semplifica e accelera il recupero (esempio:
indice analitico di un libro).
Metodi base di Indicizzazione dei
documenti
Insieme di termini o keywords
y
(parole
(p
chiave)
)
„ estratti direttamente dal testo
„ specificati da un esperto Å metadata
‡ rappresentazione più concisa
‡ qualità scadente del retrieval
Accesso ai
Rappresentazione Full text
documenti tramite
„ rappresentazione più completa
d
descrittori
„ costi computazionali alti
Grosse collezioni documenti
Riduzione dell’insieme di termini indice
‡ Eliminazione delle stop words
Generazione
z
di
‡ Stemming
S
i
descrittori del testo
‡ Identificazione di frasi nominali
• a mano
‡ Compressione
p
Rappresentazione della struttura
• mediante analisi del testo
Capitoli, sezioni, sotto-sezioni, ecc..
Schema del processo di indicizzazione
automatica di documenti testuali
INPUT
Documenti
testuali
originali
g
OUTPUT
Documenti
in formato
digitale
g
Indicizzazione
automatica
MODULO DI
INDICIZZAZIONE
Termini
indice
Documenti
in formato
digitale
Indicizzazione: output
Matrice sparsa! (presenza di molti 0 in ogni colonna)
I pesi w possono essere binari o valori reali o interi
positivi: sono calcolati in fase di indicizzazione
Indicizzazione: esaustività e specificità
Finalità:
Fi
lità
Rappresentare il contenuto semantico di un documento con
due obbiettivi:
• esaustività:
•assegnare un grande numero di termini indice
• specificità :
•termini generici: non sono adatti a distinguere i
documenti rilevanti da quelli irrilevanti
• termini specifici: permettono di reperire pochi
documenti, ma la maggior parte di questi è rilevante
Modalità:
•estrazione diretta dal documento intero (full text) o mediante
l’utilizzo di fonti esterne (es: dizionari controllati)
•Tecniche associative ((tesauri,, pseudo-tesauri,
p
, clustering)
g)
Linguaggio di indicizzazione
‡
‡
‡
‡
E’ il linguaggio
g gg usato p
per descrivere i documenti e le
query è definito su un insieme di simboli (Vocabolario)
Termini indice – sottoinsiemi di parole selezionate per
rappresentare i contenuti del documento
„ Derivate dal testo o associate indipendentemente
„ Analisi statistica dei documenti basata sulla frequenza
q
delle occorrenze dei termini nel testo dei documenti
‡ Proautomatizzata, efficiente
‡ ConsC
potenzialmente
t
i l
t iinaccurata
t
Ricerca basata su parole chiave liberamente specificate
dall’utente
Ricerca basata su un vocabolario controllato
Considerazioni sulla
frequenza dei termini
‡
‡
Termini funzionali
„ es., "and", "or", "of", "but", …
„ la
l ffrequenza di questii termini
i i è alta
l in
i tuttii i
documenti
Termini indicatori del contenuto
„ parole che identificano i contenuti del
documento
„ hanno frequenza variabile da un documento
all’altro della collezione
„ la loro frequenza è indicativa
dell’importanza nel rappresentare il
contenuto del documento
Frequenza dei termini in relazione
a Recall e Precisione
‡
f
favoriscono
i
il recall:
ll
„
„
‡
i termini ad alta frequenza
T
Tecniche
i h associative
i ti
di espansione
i
d
degli
li
indici (tesauri, clustering)
la precisione alta è data dalla capacità
dell’indicizzazione di distinguere i
contenuti dei documenti
„
i termini ad alta frequenza servono a
favorire la precisione quando la loro
frequenza non è alta in tutti i documenti
della collezione.
Fasi del Processo di
I di i
Indicizzazione
i
Documenti
Analisi
Lessicale
Eliminazione
Stopwords
d
stemming
Le fasi del processo di indicizzazione automatica che devono
essere attuate in sequenza:
1 Analisi lessicale e selezione delle parole
1.
Termini indice
2. Rimozione delle parole molto comuni o stop-words
3. Riduzione delle parole originali alle rispettive radici
4 Eventuale pesatura degli elementi dell
4.
dell’indice
indice
(significatività)
5. Creazione dell’indice
I sistemi
i t
i commerciali
i li per il recupero delle
d ll informazioni
i f
i i non
implementano necessariamente tutte queste funzionalità.
Analisi lessicale e selezione delle parole
E’ il processo di trasformazione di un flusso di
caratteri di input (il testo originario del
documento) in un flusso di parole (o tokens ),
ovvero
o
e o in una
u a sequenza
seque a di
d caratteri
ca atte po
portatore
tato e di
d
uno specifico significato.
Nel testo le parole possono essere facilmente
identificate grazie alla presenza di spazi, a capo,
segni di interruzione, ecc…
Collezione di documenti: un esempio
p
ID documento
Contenuto testuale del documento
D 1 Università degli Studi di Bologna
Bologna.
Facoltà di Lettere e Filosofia
Corso di laurea in SCIENZE della COMUNICAZIONE
D2
Libera Università di Lingue Comunicazione IULM;
Facoltà di SCIENZE della COMUNICAZIONE e
dello Spettacolo
Corso di laurea in SCIENZE della COMUNICAZIONE
D3
Università degli
g Studi di Padova
Facoltà di Lettere e Filosofia:
Corso di laurea: SCIENZE della COMUNICAZIONE
Collezione di documenti: un esempio
p
Es: P
E
Parole
l estratte
t tt dai
d id
documenti
ti ((spazii ; : .))
•D 1 : università degli studi di bologna facoltà di
l tt
lettere
e filosofia
fil
fi corso di llaurea iin scienze
i
d
della
ll
comunicazione
•D
D 2 : libera
lib
università
i
ità di lilingue e comunicazione
i
i
iulm facoltà di scienze della comunicazione e dello
spettacolo corso di laurea in scienze della
comunicazione
•D 3 : università degli studi di padova facoltà di
lettere e filosofia corso di laurea scienze della
comunicazione
Riconoscimento di parole (token)
Es: Parole estratte dai documenti (spazi ; : . – “ “)
Scelte euristiche:
aren’t Æ aren t, arent, ?
O’Neill Æ Oneill, O Neill?
coeditorÆ coeditor,
coeditor co editor?
Hewlett-PackardÆ HewlettPackard, Hewlett Packard?
lower case = lowercase ?
P ti l i sequenze:
Particolari
email address: [email protected]
URL:http://www.disco.unimib.it
p
Progr. Languages: C++, FORTRAN 90
IP addresses: 10.123.154.231
nomi composti: Volo Los Angeles
Angeles-San
San Francisco
Æ Volo Los AngelesSan Francisco?
- co-editor Æ coeditor
NB: si usa lo stesso criterio anche per le query
Dipende dalla lingua ad esempio in cinese le parole non sono separate da
blankÆ segmentazione di parole mediante uso di vocabolario
NORMALIZZAZIONE
Conversione in lettere minuscole
eliminazione simboli
Normalizzazione date
Normalizzazione nomi :
Usa Æ usa
naïve Æ naive
March 1st 2007Æ03/01/07
Bejing Æ peking
Alternativa al riconoscimento di parole
(t k )
(tokens)
Uso di brevi sequenze di caratteri (n-grams)
utile per le lingue orientali
4-grams
D1: università degli studi di bologna
Rimozione delle Stopwords
Le p
parole molto frequenti
q
nell’insieme di tutti i documenti p
portano
poca informazione sul contenuto dei singoli documenti.
informatica
Ad es: computer in una collezione di
Tali parole, stop-words, possono essere eliminate dalla lista dei
token.
Metodi:
1.Analisi statistica frequenza dei termini nella collezione e
eliminazione dei termini con basso potere discriminante
2.Termini
T
i i ffunzionali
i
li (articoli,
( ti li preposizioni,
i i i verbi
bi ausiliari)
ili i) sono
Parole molto frequenti nella lingua in cui sono scritti i documenti
3.note a priori indipendentemente dalla collezione e raccolte in una
tabella
(stop
list per l’inglese 200-300 termini)
Ad es: “been"
been , “a"
a , “about"
about , “otherwise“
otherwise , “the”
the
Rimozione delle Stopwords
L’eliminazione delle stopword permette una
riduzione tra il 30% e il 50% dei token
Può diminuire la recall es: “to be or not to be”
“l iit b
“let
be”” vengono eliminate
li i
NB: La maggior parte dei WEB search engine
non
o identificano
de t ca o le
e stopwords
stop o ds
Rimozione delle Stopwords
stopt
words
d d
dell’esempio
ll’
i :
ƒ DEGLI DI E IN DELLA DELLO
Parole dell’esempio
dell esempio che vengono considerate dopo l’eliminazione
l eliminazione
delle stop-words
D 1 : università studi bologna facoltà lettere filosofia corso laurea
scienze
Comunicazione
D 2 : libera università lingue comunicazione iulm facoltà scienze
p
corso laurea scienze comunicazione
comunicazione spettacolo
D 3 : università studi padova facoltà lettere filosofia corso laurea
scienze
comunicazione
Stemming: Riduzione delle parole
alle rispettive radici semantiche
L’efficacia
L’
ffi
i del
d l retrieval
t i
l aumenta
t se la
l query è espansa con i termini
t
i i che
h hanno
h
lo stesso significato di quelli contenuti in essa.
Gli algoritmi di Stemming sono procedure di conflation (fusione) che
riducono tutte le parole con stessa radice a una singola radice
In molte lingue,
lingue parole che iniziano allo stesso modo (o che hanno delle
sequenze di caratteri in comune) possono avere la stessa origine etimologica.
Tali parole hanno un contenuto informativo molto simile.
Generalmente rimuovono la parte finale delle parole riducendo tutte le parole
affini ad un’unica “ radice” (in inglese stem).
Es
„ computer,
computer computational,
computational computing e computed Æ comput
„ Is are being am Æ be
paint painting painted painter Æ paint
„ Colour colours Æ color different difference Æ differ
Computers are painted different colours Æ comput be paint differ color
Relazioni tra i termini indice
‡
Indicizzazione basata su termini singoli
„ i termini singoli sono spesso ambigui.
„ Molti termini singoli sono o troppo specifici o troppo
generici.
‡
Individuazione di indici composti
„ esperti indicizzatori
„ analisi linguistica (NLP)
„ metodi di espansione dei termini mediante tesauri o
clustering dei termini
Uso di tesauri per
la risoluzione di sinonimia
‡
Un tesauro può essere:
– tematico; in questo caso è una “mappa” del
l
lessico
i specifico
ifi di una certa
t di
disciplina
i li
iin un d
dato
t
linguaggio; questo è il caso più frequente;
– generale; in questo caso è una “mappa”
mappa di un
intero linguaggio.
‡
Per applicazioni
P
li
i i di IR
IR, sono stati
t ti sviluppati
il
ti varii ti
tipii di
tesauro, tra cui tesauri gerarchici, tesauri clustered,
e tesauri associativi.
Tesauri Gerachici
Elenco classificato dei termini usati in una disciplina:
RELAZIONI:
•sinonimia
i
i i (RT)
R l t dT
Related
Term
•quasi-sinonimia: (UF) Use For
Ex UF(hg,
( g, mercury
y (metal)),
(
)), UF(planet
(p
Mercury,mercury
y,
y (planet)).
(p
))
RELAZIONI DI GERARCHIA
•generalizzazione (BT) Broader Term
•specializzazione (NT) Narrower Term
I
tesauri
gerarchici
sono
stati
oggetto
di
standardizzazioni ISO e ANSI e sono quasi sempre
tematici.
Uso di tesauri gerarchici in IR
‡per
espandere
d
la
l query
‡per espandere gli indici dei documenti (indicizzazione
manuale)
SCOPI
‡normalizzazione uso di termini controllati
‡Generalizzazione sostituzione con termini più generali
‡Specificazione
S
ifi
i
sostituzione
tit i
con ttermini
i i più
iù specifici
ifi i
‡Espansione con termini correlati RT
il problema della polisemia è evitato poichè i termini
sono “qualificati”;
‡ il problema
bl
d ll sinonimia
della
i
i i è evitato
i
ricorrendo
i
d alla
ll
relazione UF.
‡
Uso di tesauri gerarchici in IR
Svantaggi dei tesauri gerarchici:
devono essere costruiti manualmente, da esperti nel
dominio;; una loro g
generazione automatica è molto
difficile, poichè, una volta che un algoritmo ha stabilito
che esiste una forte connessione semantica tra due
termini,, è molto difficile capire
p
di q
quale tipo
p
di
relazione si tratta (NT, BT, RT, UF/USE);
‡
richiedono un aggiornamento costante (manuale),
(manuale)
poichè nella maggior parte dei domini della conoscenza
la terminologia è in evoluzione costante.
‡
Clustered tesauri
Un tesauro clustered è un grafo di gruppi (o cluster,
cluster o synset) di parole.
parole
Tra due gruppi collegati da un ramo esiste una correlazione semantica
(tipicamente generica, cioè non tipizzata); ogni gruppo e’ un insieme di
parole tra cui esiste una forte correlazione semantica (quasi-sinonimia).
In WordNet, il più conosciuto tesauro «clustered» (costruito
manualmente), la quasi-sinonimia è l’unione di un insieme di sottorelazioni,, quali:
q
– sinonimia (“stesso nome”; per esempio usa/utilizza);
– iponimia (“sotto-nome”; per esempio elefante/animale);
– meronimia ((“parte-nome”;
p
e.g.
g orecchio/testa);
)
– troponimia (“maniera-nome”; e.g. correre/camminare);
– entailment, anche conosciuto come presupposizione (e.g.
divorzio/sposare).
I tesauri clustered possono essere generati automaticamente, ma solo nel
caso in cui non sia fatta alcuna distinzione tra i tipi differenti di relazioni
se a t c e;
semantiche;
Tesauri associativi o
Pseudo--Tesauri
Pseudo
Un tesauro associativo è un grafo di parole, i cui nodi
rappresentano
pp
parole e i rami rappresentano
p
pp
una
(generica) relazione di similarità semantica tra le due
parole.
I rami:
– possono essere o meno orientati, dipendentemente
d l fatto
dal
f
che
h si assume che
h la
l relazione
l
d similarità
di
l
à sia
simmetrica o no;
– possono avere un peso numerico associato wij , che
indica la “forza” dell’associazione semantica (es fuzzy
pseudo-tesauri).
T
Tesauri
i associativi
i i i
Vantaggi:
Possono essere costruiti in modo completamente automatico, a
partire
ti da
d una collezione
ll i
di documenti.
d
ti
In questo caso la relazione semantica tra ti e tj rispecchia le
caratteristiche della collezione, ed è basata sulla relazione di cooccorrenza ((o co-assenza)) tra ti e tjj .
Costruzione di un tesauro associativo :
1. Generazione di una matrice di similarità tra termini sij , usando una
funzione appropriata;
2. Applicazione di una soglia z a questa matrice, in modo tale che sij è
posto a 0 quando sij ≤ z;
Il passo critico
iti è ovviamente
i
t il Passo
P
1
1, per realizzare
li
il quale
l sono
state definite varie tecniche.
Clustering in IR
‡
Costruzione di Pseudo-Tesauri
R
Raggruppamento
t d
deii termini
t
i i la
l cuii
rappresentazione rivela assegnamenti simili
nei documenti della collezione.
collezione
‡
Generazione di Cluster di documenti
Raggruppamento dei documenti che hanno
assegnati
g
indici simili.
Clustering di documenti
Raggruppamento di documenti simili in classi:
Strategie di clustering:
•globale: operazione che raggruppa i documenti
basandosi
sulle
co-occorrenze
degli
indici
nell’intera collezione
•locale: operazione
p
che raggruppa
gg pp i documenti
sulla base di un contesto definito dalla query (su
web)
Analisi statistica dei testi: aumento della
precisione
Non tutte le parole di un documento lo descrivono con la
stessa precisione.
I termini
i i indice
i di
possono essere assegnatii aii documenti
d
i della
d ll
collezione con un dato peso.
Associando ai termini un peso si intende tenere conto della
significatività (importanza) del termine nel documento .
La funzione di p
pesatura tiene conto della frequenza
q
del termine
nel documento e nella collezione.
Quando il peso è binario, a ogni termine viene assegnato:
• un peso = 1 se presente in un documento e
• un peso = 0 se assente;
non si tiene conto della frequenza effettiva del termine nel
documento ma solo della sua eventuale presenza.
documento,
presenza
Indicizzazione con pesatura binaria
documenti
parole
bologna
comunicazione
corso
facoltà
filosofia
iulm
laurea
lettere
libera
lingue
padova
scienze
spettacolo
p
studi
università
D1
1
1
1
1
1
0
1
1
0
0
0
1
0
1
1
D2
0
1
1
1
0
1
1
0
1
1
0
1
1
0
1
D3
0
1
1
1
1
0
1
1
0
0
1
1
0
1
1
Indice con pesatura in base alla frequenza
documenti
parole
bologna
comunicazione
corso
facoltà
filosofia
iulm
laurea
lettere
libera
lingue
padova
d
scienze
spettacolo
studi
università
D1
1
1
1
1
1
0
1
1
0
0
0
1
0
1
1
D2
0
3
1
1
0
1
1
0
1
1
0
2
1
0
1
D3
0
1
1
1
1
0
1
1
0
0
1
1
0
1
1
Distribuzione della frequenza in
f i
funzione
d l rank
del
k
Per ogni parola w
f(w) è la frequenza con cui w compare nella collezione
r(w) è ll’indice
indice rank (posizione) di w nella lista ordinata in
funzione decrescente di frequenza, es, la parola che appare più
comunemente ha un indice di rank uguale a 1
f
w ha un rank r e
e frequenza f
6
r
Legge di Zipf
Se le parole w, in una collezione vengono ordinate
r(w), in ordine decrescente di frequenza f(w),
soddisfano la seguente relazione:
r(w) * f(w) = c
Collezioni differenti hanno costanti c diverse.
e test
testi in lingua
gua inglese,
g ese, c te
tende
de a circa
c ca n / 10,
0, o
ove
e
Nei
n è il numero di parole nella collezione.
vedi
Zipf, G. K., Human Behaviour and the Principle of
Least Effort.
Effort Adison-Wesley,
Adison Wesley 1949
8
Analisi di Luhn
Potere discriminante delle parole significative (curva di Zipf):
capacità delle parole di discriminare il contenuto dei documenti è
massima nella posizione intermedia tra i due livelli di cut-offs
Criteri di indicizzazione
basati sull
sull’analisi
analisi di Luhn
Pesatura dei Termini indice: le parole più
frequenti assumono un peso di significatività
più basso
Stop lists: Le parole più frequenti vengono
eliminate
li i t dagli
d li indici
i di i (cut-off
( t ff superiore)
i
)
Parole significative:
g
Le p
parle p
più frequenti
q
e
meno frequenti vengono eliminate dagli indici
((cut-off superiore
p
e inferiore))
10
Significatività
dei termini indice
E’ una funzione composta da due fattori:
wtd= ftd * Discr
Di t
ftd frequenza del termine t in d è in relazione alla
esaustività, fattore di recall
Discrt è in relazione alla specificità, fattore di
precisione
Inverse Document Frequency
q
Inverse Document Frequency (IDF) del termine t
discr
t
= idf
t
N
= log
df t
ove dft (frequenza del termine t nei documenti) è il numero di
documenti in cui tj appare e N il numero di documenti nella
collezione
Favorisce la precisione; è alta se il termine appare in pochi
documenti della collezione
Significatività dei termini indice
‡
Il peso wij del termine ti in un documento dj
N
w ij = tf ij × log
df i
d
‡
‡
Dopo aver eliminato le parole funzionali si calcola
wij per ogni termine ti in ogni documento dj
Si assegnano ai documenti della collezione tutti i
termini con valori alti di wij
Significatività dei termini indice
normalizzazione rispetto alla lunghezza dei documenti
‡
‡
La frequenza assoluta tfij di un termine ti
cresce con la lunghezza del documento dj.
Per questo il peso wij del termine ti in un
documento dj viene normalizzato
tfij
N
w ij =
× log
max tf j
dfi
‡
‡
maxtfj è la frequenza massima dei termini nel
documento dj
Il primo fattore è la frequenza relativa del
termine ti in dj
Conclusione: efficacia dei metodi di
indicizzazione automatica
‡
Base: indicizzazione automatica basata su singoli
t
termini
i i
‡
Utilizzo di un tesauro tematico per raggruppare
termini in un settore specifico
+10% al +20%
‡
Uso di tesauri associativi (pseudo-tesauri) derivati
automaticamente in una sottocollezione
ll
campione
0% al +10%