flint: ricerca ed estrazione di entit`a da web - Paolo Merialdo
Transcript
flint: ricerca ed estrazione di entit`a da web - Paolo Merialdo
ROMA TRE UNIVERSITÀ DEGLI STUDI Facoltà di Ingegneria Corso di Laurea Specialistica in Ingegneria Informatica FLINT: RICERCA ED ESTRAZIONE DI ENTITÀ DA WEB Tesi di Laurea Relatore Correlatore Candidato Prof. Paolo Merialdo Prof. Valter Crescenzi Lorenzo Blanco 253086 Anno Accademico 2005/2006 23 maggio 2007 Università degli Studi Roma Tre - Facoltà di Ingegneria - Corso di Laurea Specialistica in Ingegneria Informatica FLINT: RICERCA ED ESTRAZIONE DI ENTITÀ DA WEB Relatore: Prof. Paolo Merialdo Correlatore: Prof. Valter Crescenzi Candidato: Lorenzo Blanco 253086 Anno Accademico 2005/2006 - 23 maggio 2007 Indice Introduzione 4 1 Panoramica del sistema FLINT 8 1.1 Modello del dominio . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.2 Popolamento delle entità del dominio . . . . . . . . . . . . . . . . 10 1.3 2 Estrazione degli attributi delle entità . . . . . . . . . . . . . 14 1.2.2 Riconciliazione delle entità del dominio . . . . . . . . . . . 14 1.2.3 Inferenza di associazioni tra le entità del dominio . . . . . . 15 Architettura del sistema . . . . . . . . . . . . . . . . . . . . . . . . 16 Strutture sul Web 2.1 2.2 3 1.2.1 Modellazione di un sito . . . . . . . . . . . . . . . . . . . . . . . . 17 2.1.1 Intuizioni alla base del modello . . . . . . . . . . . . . . . 18 2.1.2 Request-collection, tag-list e page-schema . . . . . . . . . . 20 2.1.3 Cluster e class-request . . . . . . . . . . . . . . . . . . . . 22 2.1.4 Tecniche di navigazione: le pagine indice . . . . . . . . . . 22 Large and Frequently EQuivalence classes . . . . . . . . . . . . . . 24 Popolamento automatico del modello 3.1 3.2 17 27 L’algoritmo INDESIT . . . . . . . . . . . . . . . . . . . . . . . . . 27 3.1.1 La metrica di similitudine . . . . . . . . . . . . . . . . . . 28 3.1.2 Struttura di INDESIT . . . . . . . . . . . . . . . . . . . . . 28 L’algoritmo OUTDESIT . . . . . . . . . . . . . . . . . . . . . . . . 31 3.2.1 Struttura di OUTDESIT . . . . . . . . . . . . . . . . . . . . 32 3.2.2 Considerazioni su OUTDESIT . . . . . . . . . . . . . . . . . 33 3.2.3 Il filtro semantico . . . . . . . . . . . . . . . . . . . . . . . 34 Università degli Studi Roma Tre - Facoltà di Ingegneria - Corso di Laurea Specialistica in Ingegneria Informatica FLINT: RICERCA ED ESTRAZIONE DI ENTITÀ DA WEB Relatore: Prof. Paolo Merialdo Correlatore: Prof. Valter Crescenzi Candidato: Lorenzo Blanco 253086 Anno Accademico 2005/2006 - 23 maggio 2007 4 5 Il prototipo di FLINT 4.1 Implementazione di OUTDESIT . . . . . . . . . . . . . . . . . . . . 39 4.2 Google Co-op . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 4.3 Interrogazione personalizzata del modello . . . . . . . . . . . . . . 43 Esperimenti 7 45 5.1 Considerazioni sugli esperimenti . . . . . . . . . . . . . . . . . . . 45 5.2 La scelta del dominio di interesse . . . . . . . . . . . . . . . . . . . 46 5.3 OUTDESIT 5.4 6 39 sul dominio del calcio . . . . . . . . . . . . . . . . . . . 46 5.3.1 I calciatori . . . . . . . . . . . . . . . . . . . . . . . . . . 47 5.3.2 Le squadre . . . . . . . . . . . . . . . . . . . . . . . . . . 50 Un prototipo di motore di ricerca . . . . . . . . . . . . . . . . . . . 52 Stato dell’arte 55 6.1 Estrazione di Ennuple dal Web . . . . . . . . . . . . . . . . . . . . 56 6.2 Generazione Automatica di Wrapper . . . . . . . . . . . . . . . . . 58 6.3 Gestione di informazioni da sorgenti non convenzionali . . . . . . . 59 Conclusioni e sviluppi futuri 65 7.1 Relazioni nel modello del dominio . . . . . . . . . . . . . . . . . . 65 7.2 Algoritmi di crawling . . . . . . . . . . . . . . . . . . . . . . . . . 66 7.3 Estrazione di dati da pagine con istanze/entità multiple . . . . . . . 67 3 Università degli Studi Roma Tre - Facoltà di Ingegneria - Corso di Laurea Specialistica in Ingegneria Informatica FLINT: RICERCA ED ESTRAZIONE DI ENTITÀ DA WEB Relatore: Prof. Paolo Merialdo Correlatore: Prof. Valter Crescenzi Candidato: Lorenzo Blanco 253086 Anno Accademico 2005/2006 - 23 maggio 2007 Introduzione Un’idea, un concetto,un’idea finchè resta un’idea è soltanto un’astrazione Giorgio Gaber Il World Wide Web (Web) può essere considerato la più grande base di conoscenza realizzata dall’uomo. Fino ad oggi l’approccio predominante per usufruire dei contenuti di questa enorme sorgente di informazioni si è ispirato prevalentemente alle tecniche e alle modalità proprie dell’Information Retrieval [?] [?]. L’utente specifica una interrogazione (query), tipicamente espressa come un insieme di parole chiave. Il sistema risponde con un insieme di documenti, opportunamente ordinato per pertinenza (ranking). Nonostante i moderni motori di ricerca adottino sofisticati algoritmi per calcolare la pertinenza di un documento rispetto ad una interrogazione, in molti contesti questo approccio risulta limitato. Una prima limitazione è che i risultati di un motore di ricerca spesso sono insoddisfacenti a causa delle ambiguità semantiche intrinseche nei documenti e nella stessa interrogazione. Una tradizionale soluzione al problema è rappresentata dai servizi di directory che classificano i siti Web in una tassonomia predefinita. Più recentemente, sospinti dal numero crescente di utenti che partecipano attivamente all’utilizzo delle informazioni presenti sul Web, si sono diffusi strumenti di annotazione distribuiti e condivisi che consentono agli utenti del Web di associare ai risultati delle loro ricerche etichette che esprimono una semantica sui contenuti delle 4 Università degli Studi Roma Tre - Facoltà di Ingegneria - Corso di Laurea Specialistica in Ingegneria Informatica FLINT: RICERCA ED ESTRAZIONE DI ENTITÀ DA WEB Relatore: Prof. Paolo Merialdo Correlatore: Prof. Valter Crescenzi Candidato: Lorenzo Blanco 253086 Anno Accademico 2005/2006 - 23 maggio 2007 INTRODUZIONE pagine1 . Questo approccio, basandosi sulla numerosità delle persone che partecipano al processo di annotazione, ipotizza che la semantica delle etichette converga offrendo una concreta possibilità di limitare le ambiguità degli approcci tradizionali. Un’idea simile è stata recentemente adotatta e promossa anche da Google che, attraverso un servizio sperimentale, chiamato Google Co-op, permette la creazione personalizzata di motori di ricerca verticali, in cui l’insieme dei documenti indicizzati può essere associato ad etichette (faces, nella terminologia adottata da Google) scelte dall’utente. Un secondo limite dell’approccio tradizionale consiste nel fatto che in accordo con il paradigma IR le pagine Web sono considerate come documenti privi di struttura: questa visione limita la possibilità di manipolare ad una granularità più fine le informazioni pubblicate nelle pagine. Infatti, è facile osservare che recentemente una crescente quantità di informazioni pubblicate sul Web è organizzata in accordo ad una qualche forma di struttura. Questo fenomeno è dovuto alla crescente diffusione di strumenti informatici estremamente versatili che sta sospingendo un numero sempre più ampio di utenti a pubblicare informazioni sul Web. Le pagine e i siti Web prodotti attraverso l’uso di questi strumenti offrono regolarità nell’organizzazione delle informazioni che si manifestano sia nella struttura topologica del sito, sia nella struttura interna delle pagine. Riuscire a cogliere queste regolarità potrebbe consentire di estrapolare, interpretare e integrare i dati che sono divulgati attraverso il Web permettendo sia di migliorare i risultati degli attuali motori di ricerca, sia di proporre forme di interrogazione più sofisticate ed efficaci. Questa tesi descrive il lavoro di partecipazione all’ideazione e all’implementazione di un sistema in un progetto di ricerca chiamato FLINT . Questo sistema, sfruttando le regolarità che si manifestano localmente sul Web, dovrebbe indicizzare pagine contenenti informazioni di interesse, etichettarle semanticamente ed offrire modalità di interrogazione sofisticate ai dati che queste espongono. 1 http://www.delicious.com/, http://bluedot.us/] 5 Università degli Studi Roma Tre - Facoltà di Ingegneria - Corso di Laurea Specialistica in Ingegneria Informatica FLINT: RICERCA ED ESTRAZIONE DI ENTITÀ DA WEB Relatore: Prof. Paolo Merialdo Correlatore: Prof. Valter Crescenzi Candidato: Lorenzo Blanco 253086 Anno Accademico 2005/2006 - 23 maggio 2007 INTRODUZIONE In generale l’idea è quella di offrire all’utente la possibilità di interagire con un sistema che sia in grado di: • trovare, indicizzare ed annotare pagine che presentano informazioni relative ad uno specifico dominio di interesse; • riconoscere entità concettuali e associazioni tra le informazioni pubblicate nelle pagine; • offire all’utente modalità di interrogazione basate sia su parole chiave, sia per mezzo di un sistema di query e navigazione attraverso le entità e le associazioni concettuali rilevate dal sistema. FLINT dovrebbe assistere un utente nella creazione di un database di oggetti e associazioni a partire da informazioni estratte da pagine individuate e indicizzate dal Web. FLINT ambisce ad automatizzare il più possibile tutti i passi necessari a creare questo database. L’idea chiave è quella di usare la struttura che si manifesta sul Web sia nella fase di ricerca ed annotazione delle pagine, che in quella di estrazione delle informazioni e creazione del database. In pratica, a partire da un semplice schema concettuale e da alcune pagine di esempio, le cui informazioni possono essere considerate istanze dello schema, FLINT cerca pagine che contengono informazioni che rappresentano altre istanze dello schema, annota le pagine con etichette che fanno riferimento alle entità dello schema, estrae (anche parzialmente) dati relativi alle singole istanze. 6