flint: ricerca ed estrazione di entit`a da web - Paolo Merialdo

Transcript

flint: ricerca ed estrazione di entit`a da web - Paolo Merialdo
ROMA
TRE
UNIVERSITÀ DEGLI STUDI
Facoltà di Ingegneria
Corso di Laurea Specialistica in Ingegneria Informatica
FLINT: RICERCA ED ESTRAZIONE DI
ENTITÀ DA WEB
Tesi di Laurea
Relatore
Correlatore
Candidato
Prof. Paolo Merialdo
Prof. Valter Crescenzi
Lorenzo Blanco
253086
Anno Accademico 2005/2006
23 maggio 2007
Università degli Studi Roma Tre - Facoltà di Ingegneria - Corso di Laurea Specialistica in Ingegneria Informatica
FLINT: RICERCA ED ESTRAZIONE DI ENTITÀ DA WEB
Relatore: Prof. Paolo Merialdo
Correlatore: Prof. Valter Crescenzi
Candidato: Lorenzo Blanco 253086
Anno Accademico 2005/2006 - 23 maggio 2007
Indice
Introduzione
4
1
Panoramica del sistema FLINT
8
1.1
Modello del dominio . . . . . . . . . . . . . . . . . . . . . . . . .
9
1.2
Popolamento delle entità del dominio . . . . . . . . . . . . . . . . 10
1.3
2
Estrazione degli attributi delle entità . . . . . . . . . . . . . 14
1.2.2
Riconciliazione delle entità del dominio . . . . . . . . . . . 14
1.2.3
Inferenza di associazioni tra le entità del dominio . . . . . . 15
Architettura del sistema . . . . . . . . . . . . . . . . . . . . . . . . 16
Strutture sul Web
2.1
2.2
3
1.2.1
Modellazione di un sito . . . . . . . . . . . . . . . . . . . . . . . . 17
2.1.1
Intuizioni alla base del modello . . . . . . . . . . . . . . . 18
2.1.2
Request-collection, tag-list e page-schema . . . . . . . . . . 20
2.1.3
Cluster e class-request . . . . . . . . . . . . . . . . . . . . 22
2.1.4
Tecniche di navigazione: le pagine indice . . . . . . . . . . 22
Large and Frequently EQuivalence classes . . . . . . . . . . . . . . 24
Popolamento automatico del modello
3.1
3.2
17
27
L’algoritmo INDESIT . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.1.1
La metrica di similitudine . . . . . . . . . . . . . . . . . . 28
3.1.2
Struttura di INDESIT . . . . . . . . . . . . . . . . . . . . . 28
L’algoritmo OUTDESIT . . . . . . . . . . . . . . . . . . . . . . . . 31
3.2.1
Struttura di OUTDESIT . . . . . . . . . . . . . . . . . . . . 32
3.2.2
Considerazioni su OUTDESIT . . . . . . . . . . . . . . . . . 33
3.2.3
Il filtro semantico . . . . . . . . . . . . . . . . . . . . . . . 34
Università degli Studi Roma Tre - Facoltà di Ingegneria - Corso di Laurea Specialistica in Ingegneria Informatica
FLINT: RICERCA ED ESTRAZIONE DI ENTITÀ DA WEB
Relatore: Prof. Paolo Merialdo
Correlatore: Prof. Valter Crescenzi
Candidato: Lorenzo Blanco 253086
Anno Accademico 2005/2006 - 23 maggio 2007
4
5
Il prototipo di FLINT
4.1
Implementazione di OUTDESIT . . . . . . . . . . . . . . . . . . . . 39
4.2
Google Co-op . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.3
Interrogazione personalizzata del modello . . . . . . . . . . . . . . 43
Esperimenti
7
45
5.1
Considerazioni sugli esperimenti . . . . . . . . . . . . . . . . . . . 45
5.2
La scelta del dominio di interesse . . . . . . . . . . . . . . . . . . . 46
5.3
OUTDESIT
5.4
6
39
sul dominio del calcio . . . . . . . . . . . . . . . . . . . 46
5.3.1
I calciatori . . . . . . . . . . . . . . . . . . . . . . . . . . 47
5.3.2
Le squadre . . . . . . . . . . . . . . . . . . . . . . . . . . 50
Un prototipo di motore di ricerca . . . . . . . . . . . . . . . . . . . 52
Stato dell’arte
55
6.1
Estrazione di Ennuple dal Web . . . . . . . . . . . . . . . . . . . . 56
6.2
Generazione Automatica di Wrapper . . . . . . . . . . . . . . . . . 58
6.3
Gestione di informazioni da sorgenti non convenzionali . . . . . . . 59
Conclusioni e sviluppi futuri
65
7.1
Relazioni nel modello del dominio . . . . . . . . . . . . . . . . . . 65
7.2
Algoritmi di crawling . . . . . . . . . . . . . . . . . . . . . . . . . 66
7.3
Estrazione di dati da pagine con istanze/entità multiple . . . . . . . 67
3
Università degli Studi Roma Tre - Facoltà di Ingegneria - Corso di Laurea Specialistica in Ingegneria Informatica
FLINT: RICERCA ED ESTRAZIONE DI ENTITÀ DA WEB
Relatore: Prof. Paolo Merialdo
Correlatore: Prof. Valter Crescenzi
Candidato: Lorenzo Blanco 253086
Anno Accademico 2005/2006 - 23 maggio 2007
Introduzione
Un’idea, un concetto,un’idea
finchè resta un’idea è soltanto un’astrazione
Giorgio Gaber
Il World Wide Web (Web) può essere considerato la più grande base di conoscenza realizzata dall’uomo. Fino ad oggi l’approccio predominante per usufruire
dei contenuti di questa enorme sorgente di informazioni si è ispirato prevalentemente alle tecniche e alle modalità proprie dell’Information Retrieval [?] [?]. L’utente specifica una interrogazione (query), tipicamente espressa come un insieme di
parole chiave. Il sistema risponde con un insieme di documenti, opportunamente
ordinato per pertinenza (ranking). Nonostante i moderni motori di ricerca adottino sofisticati algoritmi per calcolare la pertinenza di un documento rispetto ad una
interrogazione, in molti contesti questo approccio risulta limitato.
Una prima limitazione è che i risultati di un motore di ricerca spesso sono insoddisfacenti a causa delle ambiguità semantiche intrinseche nei documenti e nella
stessa interrogazione. Una tradizionale soluzione al problema è rappresentata dai
servizi di directory che classificano i siti Web in una tassonomia predefinita. Più
recentemente, sospinti dal numero crescente di utenti che partecipano attivamente
all’utilizzo delle informazioni presenti sul Web, si sono diffusi strumenti di annotazione distribuiti e condivisi che consentono agli utenti del Web di associare ai risultati delle loro ricerche etichette che esprimono una semantica sui contenuti delle
4
Università degli Studi Roma Tre - Facoltà di Ingegneria - Corso di Laurea Specialistica in Ingegneria Informatica
FLINT: RICERCA ED ESTRAZIONE DI ENTITÀ DA WEB
Relatore: Prof. Paolo Merialdo
Correlatore: Prof. Valter Crescenzi
Candidato: Lorenzo Blanco 253086
Anno Accademico 2005/2006 - 23 maggio 2007
INTRODUZIONE
pagine1 . Questo approccio, basandosi sulla numerosità delle persone che partecipano al processo di annotazione, ipotizza che la semantica delle etichette converga
offrendo una concreta possibilità di limitare le ambiguità degli approcci tradizionali. Un’idea simile è stata recentemente adotatta e promossa anche da Google che,
attraverso un servizio sperimentale, chiamato Google Co-op, permette la creazione
personalizzata di motori di ricerca verticali, in cui l’insieme dei documenti indicizzati può essere associato ad etichette (faces, nella terminologia adottata da Google)
scelte dall’utente.
Un secondo limite dell’approccio tradizionale consiste nel fatto che in accordo
con il paradigma IR le pagine Web sono considerate come documenti privi di struttura: questa visione limita la possibilità di manipolare ad una granularità più fine
le informazioni pubblicate nelle pagine. Infatti, è facile osservare che recentemente
una crescente quantità di informazioni pubblicate sul Web è organizzata in accordo ad una qualche forma di struttura. Questo fenomeno è dovuto alla crescente
diffusione di strumenti informatici estremamente versatili che sta sospingendo un
numero sempre più ampio di utenti a pubblicare informazioni sul Web.
Le pagine e i siti Web prodotti attraverso l’uso di questi strumenti offrono regolarità nell’organizzazione delle informazioni che si manifestano sia nella struttura
topologica del sito, sia nella struttura interna delle pagine. Riuscire a cogliere queste regolarità potrebbe consentire di estrapolare, interpretare e integrare i dati che
sono divulgati attraverso il Web permettendo sia di migliorare i risultati degli attuali
motori di ricerca, sia di proporre forme di interrogazione più sofisticate ed efficaci.
Questa tesi descrive il lavoro di partecipazione all’ideazione e all’implementazione di un sistema in un progetto di ricerca chiamato
FLINT .
Questo sistema,
sfruttando le regolarità che si manifestano localmente sul Web, dovrebbe indicizzare pagine contenenti informazioni di interesse, etichettarle semanticamente ed
offrire modalità di interrogazione sofisticate ai dati che queste espongono.
1
http://www.delicious.com/, http://bluedot.us/]
5
Università degli Studi Roma Tre - Facoltà di Ingegneria - Corso di Laurea Specialistica in Ingegneria Informatica
FLINT: RICERCA ED ESTRAZIONE DI ENTITÀ DA WEB
Relatore: Prof. Paolo Merialdo
Correlatore: Prof. Valter Crescenzi
Candidato: Lorenzo Blanco 253086
Anno Accademico 2005/2006 - 23 maggio 2007
INTRODUZIONE
In generale l’idea è quella di offrire all’utente la possibilità di interagire con un
sistema che sia in grado di:
• trovare, indicizzare ed annotare pagine che presentano informazioni relative
ad uno specifico dominio di interesse;
• riconoscere entità concettuali e associazioni tra le informazioni pubblicate
nelle pagine;
• offire all’utente modalità di interrogazione basate sia su parole chiave, sia per
mezzo di un sistema di query e navigazione attraverso le entità e le associazioni concettuali rilevate dal sistema.
FLINT
dovrebbe assistere un utente nella creazione di un database di oggetti e
associazioni a partire da informazioni estratte da pagine individuate e indicizzate dal
Web.
FLINT
ambisce ad automatizzare il più possibile tutti i passi necessari a creare
questo database. L’idea chiave è quella di usare la struttura che si manifesta sul
Web sia nella fase di ricerca ed annotazione delle pagine, che in quella di estrazione
delle informazioni e creazione del database.
In pratica, a partire da un semplice schema concettuale e da alcune pagine
di esempio, le cui informazioni possono essere considerate istanze dello schema,
FLINT
cerca pagine che contengono informazioni che rappresentano altre istanze
dello schema, annota le pagine con etichette che fanno riferimento alle entità dello
schema, estrae (anche parzialmente) dati relativi alle singole istanze.
6