flint: ricerca ed estrazione di entit`a da web - Paolo Merialdo

Transcript

ROMA
TRE
UNIVERSITÀ DEGLI STUDI
Facoltà di Ingegneria
Corso di Laurea Specialistica in Ingegneria Informatica
FLINT: RICERCA ED ESTRAZIONE DI
ENTITÀ DA WEB
Tesi di Laurea
Relatore
Correlatore
Candidato
Prof. Paolo Merialdo
Prof. Valter Crescenzi
Lorenzo Blanco
253086
Anno Accademico 2005/2006
23 maggio 2007
Università degli Studi Roma Tre - Facoltà di Ingegneria - Corso di Laurea Specialistica in Ingegneria Informatica
FLINT: RICERCA ED ESTRAZIONE DI ENTITÀ DA WEB
Relatore: Prof. Paolo Merialdo
Correlatore: Prof. Valter Crescenzi
Candidato: Lorenzo Blanco 253086
Anno Accademico 2005/2006 - 23 maggio 2007
Indice
Introduzione
4
1
Panoramica del sistema FLINT
8
1.1
Modello del dominio . . . . . . . . . . . . . . . . . . . . . . . . .
9
1.2
Popolamento delle entità del dominio . . . . . . . . . . . . . . . . 10
1.3
2
Estrazione degli attributi delle entità . . . . . . . . . . . . . 14
1.2.2
Riconciliazione delle entità del dominio . . . . . . . . . . . 14
1.2.3
Inferenza di associazioni tra le entità del dominio . . . . . . 15
Architettura del sistema . . . . . . . . . . . . . . . . . . . . . . . . 16
Strutture sul Web
2.1
2.2
3
1.2.1
Modellazione di un sito . . . . . . . . . . . . . . . . . . . . . . . . 17
2.1.1
Intuizioni alla base del modello . . . . . . . . . . . . . . . 18
2.1.2
Request-collection, tag-list e page-schema . . . . . . . . . . 20
2.1.3
Cluster e class-request . . . . . . . . . . . . . . . . . . . . 22
2.1.4
Tecniche di navigazione: le pagine indice . . . . . . . . . . 22
Large and Frequently EQuivalence classes . . . . . . . . . . . . . . 24
Popolamento automatico del modello
3.1
3.2
17
27
L’algoritmo INDESIT . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.1.1
La metrica di similitudine . . . . . . . . . . . . . . . . . . 28
3.1.2
Struttura di INDESIT . . . . . . . . . . . . . . . . . . . . . 28
L’algoritmo OUTDESIT . . . . . . . . . . . . . . . . . . . . . . . . 31
3.2.1
Struttura di OUTDESIT . . . . . . . . . . . . . . . . . . . . 32
3.2.2
Considerazioni su OUTDESIT . . . . . . . . . . . . . . . . . 33
3.2.3
Il filtro semantico . . . . . . . . . . . . . . . . . . . . . . . 34
4
5
Il prototipo di FLINT
4.1
Implementazione di OUTDESIT . . . . . . . . . . . . . . . . . . . . 39
4.2
Google Co-op . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.3
Interrogazione personalizzata del modello . . . . . . . . . . . . . . 43
Esperimenti
7
45
5.1
Considerazioni sugli esperimenti . . . . . . . . . . . . . . . . . . . 45
5.2
La scelta del dominio di interesse . . . . . . . . . . . . . . . . . . . 46
5.3
OUTDESIT
5.4
6
39
sul dominio del calcio . . . . . . . . . . . . . . . . . . . 46
5.3.1
I calciatori . . . . . . . . . . . . . . . . . . . . . . . . . . 47
5.3.2
Le squadre . . . . . . . . . . . . . . . . . . . . . . . . . . 50
Un prototipo di motore di ricerca . . . . . . . . . . . . . . . . . . . 52
Stato dell’arte
55
6.1
Estrazione di Ennuple dal Web . . . . . . . . . . . . . . . . . . . . 56
6.2
Generazione Automatica di Wrapper . . . . . . . . . . . . . . . . . 58
6.3
Gestione di informazioni da sorgenti non convenzionali . . . . . . . 59
Conclusioni e sviluppi futuri
65
7.1
Relazioni nel modello del dominio . . . . . . . . . . . . . . . . . . 65
7.2
Algoritmi di crawling . . . . . . . . . . . . . . . . . . . . . . . . . 66
7.3
Estrazione di dati da pagine con istanze/entità multiple . . . . . . . 67
3
Introduzione
Un’idea, un concetto,un’idea
finchè resta un’idea è soltanto un’astrazione
Giorgio Gaber
Il World Wide Web (Web) può essere considerato la più grande base di conoscenza realizzata dall’uomo. Fino ad oggi l’approccio predominante per usufruire
dei contenuti di questa enorme sorgente di informazioni si è ispirato prevalentemente alle tecniche e alle modalità proprie dell’Information Retrieval [?] [?]. L’utente specifica una interrogazione (query), tipicamente espressa come un insieme di
parole chiave. Il sistema risponde con un insieme di documenti, opportunamente
ordinato per pertinenza (ranking). Nonostante i moderni motori di ricerca adottino sofisticati algoritmi per calcolare la pertinenza di un documento rispetto ad una
interrogazione, in molti contesti questo approccio risulta limitato.
Una prima limitazione è che i risultati di un motore di ricerca spesso sono insoddisfacenti a causa delle ambiguità semantiche intrinseche nei documenti e nella
stessa interrogazione. Una tradizionale soluzione al problema è rappresentata dai
servizi di directory che classificano i siti Web in una tassonomia predefinita. Più
recentemente, sospinti dal numero crescente di utenti che partecipano attivamente
all’utilizzo delle informazioni presenti sul Web, si sono diffusi strumenti di annotazione distribuiti e condivisi che consentono agli utenti del Web di associare ai risultati delle loro ricerche etichette che esprimono una semantica sui contenuti delle
4
INTRODUZIONE
pagine1 . Questo approccio, basandosi sulla numerosità delle persone che partecipano al processo di annotazione, ipotizza che la semantica delle etichette converga
offrendo una concreta possibilità di limitare le ambiguità degli approcci tradizionali. Un’idea simile è stata recentemente adotatta e promossa anche da Google che,
attraverso un servizio sperimentale, chiamato Google Co-op, permette la creazione
personalizzata di motori di ricerca verticali, in cui l’insieme dei documenti indicizzati può essere associato ad etichette (faces, nella terminologia adottata da Google)
scelte dall’utente.
Un secondo limite dell’approccio tradizionale consiste nel fatto che in accordo
con il paradigma IR le pagine Web sono considerate come documenti privi di struttura: questa visione limita la possibilità di manipolare ad una granularità più fine
le informazioni pubblicate nelle pagine. Infatti, è facile osservare che recentemente
una crescente quantità di informazioni pubblicate sul Web è organizzata in accordo ad una qualche forma di struttura. Questo fenomeno è dovuto alla crescente
diffusione di strumenti informatici estremamente versatili che sta sospingendo un
numero sempre più ampio di utenti a pubblicare informazioni sul Web.
Le pagine e i siti Web prodotti attraverso l’uso di questi strumenti offrono regolarità nell’organizzazione delle informazioni che si manifestano sia nella struttura
topologica del sito, sia nella struttura interna delle pagine. Riuscire a cogliere queste regolarità potrebbe consentire di estrapolare, interpretare e integrare i dati che
sono divulgati attraverso il Web permettendo sia di migliorare i risultati degli attuali
motori di ricerca, sia di proporre forme di interrogazione più sofisticate ed efficaci.
Questa tesi descrive il lavoro di partecipazione all’ideazione e all’implementazione di un sistema in un progetto di ricerca chiamato
FLINT .
Questo sistema,
sfruttando le regolarità che si manifestano localmente sul Web, dovrebbe indicizzare pagine contenenti informazioni di interesse, etichettarle semanticamente ed
offrire modalità di interrogazione sofisticate ai dati che queste espongono.
1
http://www.delicious.com/, http://bluedot.us/]
5
INTRODUZIONE
In generale l’idea è quella di offrire all’utente la possibilità di interagire con un
sistema che sia in grado di:
• trovare, indicizzare ed annotare pagine che presentano informazioni relative
ad uno specifico dominio di interesse;
• riconoscere entità concettuali e associazioni tra le informazioni pubblicate
nelle pagine;
• offire all’utente modalità di interrogazione basate sia su parole chiave, sia per
mezzo di un sistema di query e navigazione attraverso le entità e le associazioni concettuali rilevate dal sistema.
FLINT
dovrebbe assistere un utente nella creazione di un database di oggetti e
associazioni a partire da informazioni estratte da pagine individuate e indicizzate dal
Web.
FLINT
ambisce ad automatizzare il più possibile tutti i passi necessari a creare
questo database. L’idea chiave è quella di usare la struttura che si manifesta sul
Web sia nella fase di ricerca ed annotazione delle pagine, che in quella di estrazione
delle informazioni e creazione del database.
In pratica, a partire da un semplice schema concettuale e da alcune pagine
di esempio, le cui informazioni possono essere considerate istanze dello schema,
FLINT
cerca pagine che contengono informazioni che rappresentano altre istanze
dello schema, annota le pagine con etichette che fanno riferimento alle entità dello
schema, estrae (anche parzialmente) dati relativi alle singole istanze.
6

flint: ricerca ed estrazione di entit`a da web - Paolo Merialdo

Transcript

Documenti analoghi

Leggi il Prologo

26ott10 - Dipartimento di Matematica e Informatica

ICMS - Istruzioni per aggiungere un link interno (File pdf

IBM Infoprint 1412

20100428Programma (20100428ProgrammaFesta)

Questionario per la creazione di un sito internet Il

attivita` di tutoraggio di matematica

Entra a far parte di LIDL Italia

5_ARRIVANO I FILM 2010_2011

informatica base Web content editor – primo livello diurno/serale

notice to graduating students pc

Press Book Piovono polpette