Tutorial Semantic Web
Transcript
Tutorial Semantic Web
Sem antic Web Underneath the new Wave Luigi Iannone Sem antic Web: Cos’è? • • • • Nuova tendenza del Web Risposta ai problemi del Web Estensione Standard del Web Idea di (Sir) Berners- Lee ( http:/ / www.w3.org/ 2003/ 12/ tim bl_knighted) Problem i del Web • Inform ation Overload – Sinonim i – Polisemi – Ambiguità in genere • Inform azione non m achineprocessable – HTML (infos m ischiate con grafica) – Nessun ragionam ento Risposte del Sem antic Web • • • • Ontologie Metadati Logica Ragionam ento Inform azione m achine- processable Sem antic Web: Architettura http:/ / www.w3 .org/ DesignIssues/ diagrams/ sw- stack- 2 0 0 2 .png Sem antic Web vs. Web Web Riuso degli standard • • • • • URL URI Unicode XML HTTP Sem antic Web: Livelli • Architettura a Pila (analogo a Pila ISO/ OSI, Pila Protocolli Internet) • Un livello Un set di responsabilità – Inform ation hiding – Alta coesione interna – Basso accoppiam ento tra livelli Architettura m anutenibile e poco costosa Livello sintattico • Responsabilit à – Concetto di documento univoco e astratto – Strutturazione gerarchica di docum enti Web • Tecnologie (standard) – URI/ URL – XML/ XML Schem a/ DTD/ Nam espaces – HTTP Livello dei Metadati • Responsabilit à: – Concetto di risorsa (web e non web) – Annotazione standard delle risorse • Tecnologie (standard) – RDF (serializzabile XML) • Tutto è una URI • Tutto va descritto con la m assim a sem plicità possibile • Tutto può dire tutto su tutto Livello Ontologico • Responsabilit à: – Vocabolari condivisi – Interoperabilità semantica (Le applicazioni sanno di cosa stanno parlando) • Tecnologie (standard) – RDF Schema DAML+ OIL OWL (serializzabili in XML) Livello Logico • Responsabilit à: – Inferenza – Regole al top dell’ontologia • Tecnologie (standard) – RuleML + OWL = OWLRules Livello della prova e della fiducia • Responsabilit à: – Risoluzione dei conflitti – Web of Trust • Tecnologie (standard) – Nessuno standard – Digital Signature – Catene di (s)fiducia,Modelli Friend of a Friend Sem antic Web: Scenari • Ricerca di inform azioni su Internet • Classificazione di risorse – Item reccom endation – e- com merce –… • Sem antic Web Services Ricerche su Internet (Esem pio) Voglio sapere chi è il direttore dell’ M.I.T. Apro Google (http:/ / www.google.com ) • Inserisco MIT Chair • Risultati: 815.000 documenti che riguardano: – Massachussets Institute of Technology – m it (Tedesco) prep. con – Chair (Inglese) n. sedia –… Classificazione di risorse … Dato un insiem e di art icoli voglio selezionare il revisore più adatto conoscendone le com petenze Tecnologie Tradizionali • Ogni articolo n keywords • Ogni revisore m keywords • Intersezione (poco probabile) … Classificazione di risorse … Dato un insiem e di art icoli voglio selezionare il revisore più adatto conoscendone le com petenze Semantic Web • Ogni articolo n concetti (di un’ontologia) • Ogni autore m com petenze (di un’ontologia) • Intersezione ed inferenza (probabile) … Classificazione di risorse Dato un insieme di Item s i.e. articoli di un qualsiasi (e- ) shop ed un utente voglio indovinare quali articoli suggerire ad un generico utente Approccio • User Modeling • Sem antic Index ing Sem antic Web Services • Evoluzione dei Web Services • Applicazioni dinam icam ente interfacciate • Business 2 Business potenziato Sem antic web: Com e? Obiettivi • Astrazione – Scam bio indipendente da piattaform e e formalismi proprietari • Disambiguazione – Sinonim ia, Polisem ia • Ragionam ento – Classificazione, Interoperabilità semnatica … Sem antic Web: Com e? … • Riuso del Web: – Ri- scrittura dell’inform azione Vs. – Arricchimento delle risorse correnti … Sem antic Web: Com e? … • Inserimento di Meta- inform azione – Informazione sull’informazione – Form alism o Standard – Vocabolario condiviso – Ragionam ento su metadati … Sem antic Web: Com e? … Eye Disease … Is A … Retinoshisis affects incidence Wom en Articolo su eMedicine affects sulla retinoschisi giovanile Men http:/ / www.em edicine.com / oph/ topic639.htm 0,0002 to 0,00004 Ipotetico processo • • • • • • Estrazione di contenuto rilevante da testo non strutturato Trasform azione del inform azione rilevante in un form ato adatto alle fasi successive Prim a fase di apprendim ento autom atico (addensam ento dei contenuti) t ipo clustering Estrazione di una teoria prim ordiale basato sull’output della fase precedente (prim a concettualizzazione) Raffinam ento della teoria (passo che può essere reiterato) Fusione con ontologie preesist enti Estrazione di inform azione rilevante Obiettivo: Individuare strutture nel test o che possano essere framm enti di definizioni di concetti. … Estrazione di informazione rilevante… Retinoshisis juvenile is an eye disease Retinoschisis affects m en Retinoschisis affects wom en Retinoschisis has incidence from 0,0002 to… Raw Test Concept examples description … Estrazione di contenuto rilevante… Problem i • Di solito la form a dei testi, in qualsiasi lingua è m olto meno lineare e strutturata di quella delle descrizioni soggetto predicato oggetto che vorremm o raggiungere • Si potrebbe correre il rischio di perdere molta informazione (frasi coordinate, anafore…) … Estrazione di informazione rilevante • • • • Approccio inziale Estrazione di Noun Phrases (NP): Frasi che contengono gruppi nominali Utilizzo di Shallow Parsers (SP) Risultati: Estrazione di gruppi soggetto- verbooggetto () SP attuali m olto imprecisi (soprattutto con frasi lunghe ()) Trasformazione del contenuto rilevante Obiettivo: L’output di questo processo è ottenere un insiem e di descrizioni in un form ato standard adatto (e.g.: descrizioni RDF) risultanti dalla trasformazione delle NP ottenute nella fase precedente . … Trasformazione del contenuto rilevante … Problem i • In questa fase vanno gestite sinonim ia e polisemia • C’è bisogno di algoritm i di disam biguazione … Trasformazione del contenuto rilevante • • • • Approccio inziale Trasformazione Noun Phrases+ verbo e oggetto in RDF Codifica dei nom i con le URI (ove presenti) dei synsets di WordNet Risultati: Inform azione strutturata su cui si può operare () Nessun algoritm o di word sense disam biguation provato () Prima fase di apprendimento automatico (comincia lo spettacolo) Obiettivo Raggruppam ento delle descrizioni precedentemente ottenute in gruppi omogenei. Senza alcuna supervisione (~ clustering) … Prima fase di apprendimento automatico … Problem i • Dipende dall’ordine della rappresentazione (su rappresentazioni di ordine ≥1 non vi sono risultati incoraggianti finora) • Cluster omogenei di istanze … Prima fase di apprendimento automatico … Approccio iniziale • Descrizioni RDF di partenza com e esempi • Algoritm i di apprendim ento autom atico da esempi Attendere prego… Risultati: Attendere prego… Estrazione di una teoria primordiale A B C F D E A …. C A and not(B and C) …. B A and … D A and … Raffinamento della teoria Obiettivo: Perfezionare la concettualizzazione ottenuta per ottenere m odelli più predittivi (Apprendim ento supervisonato) Apprendim ento supervisionato Input • Definizione di un concetto (dalle fasi precedenti) • Esempi positivi e negativi • Definizione che copre qualche negativo o non copre qualche positivo ( definizione erronea) Output Nuova definizione che m inim izza l’errore Fusione con ontologie preesistenti Obiettivo: Fusione della struttura con quanto già preesistente ed integrazioni eventuali in entram be le direzioni Still pure dream Ricerca in corso...* • • • • • • Estrazione di contenuto rilevante da testo non strutturato Trasform azione del inform azione rilevante in un form ato adatto alle fasi successive Prim a fase di apprendim ento autom atico (addensam ento dei contenuti) t ipo clustering Estrazione di una teoria prim ordiale basato sull’output della fase precedente (prim a concettualizzazione) Raffinam ento della teoria (passo che può essere reiterato) Fusione con ontologie preesist enti * Le dim ensioni delle frecce non sono casuali Stato dell’arte (Sem antic Web) • Metadati Resource Description Framework (RDF) • Concettualizzazioni Strutturate (Ontologie) DAML+ OIL, OWL Rappresentazione della conoscenza (KR) • Logica del prim o ordine (FOL) o suoi framm enti – Com pletam ente esplorata – Flessibile – Direttamente integrabile con i DB • Logiche Descrittive (DL,DLs) – Conoscenza strutturata (concetti nativi di classe proprietà ecc.) – Grande espressività … Rappresentazione della conoscenza (KR) • Logica del prim o ordine (FOL) o suoi framm enti – Non decidibile se presa tutta – Nessuna struttura sui domini • Logiche Descrittive (DL,DLs) – Spesso intrattabile – Difficile m odellare relazioni m - n Apprendim ento da esem pi • Robusto su FOL (ad esem pio Inductive Logic Program m ing) • Non del tutto esplorato in DL – Kietz ed altri hanno provato a usare ILP per apprendere DL trasform ando DLFOL – Kuesters ed altri usano approcci puri per apprendere in DL KR per il Sem antic Web • DAML+ OIL è un istanza di una particolare DL chiam ata SHIQ • RDF è il linguaggio usato per esprim ere asserzioni ( fatti in FOL) Rim ane da valutare l’efficacia dei m etodi di apprendim ento Confronto prelim inare • Approccio ILP – oriented (DLP) – PAC lernability di alcune DL – Richiede trasformazione in FOL con aggiustamenti (perde vantaggio strutturazione) – Alcuni costrutti intraducibili (cfr. lavoro di Borgida) • Approccio puro – Alcune operazioni intrattabili per alcune DL Cosa abbiam o visto • Semantic Web – Nuova generazione del Web – Integrabile con il precedente WWW – Ragionam ento inserito nel WWW • Architettura a Livelli – – – – – Sintattico Metadati Ontologie Logico Prova e fiducia … Cosa abbiam o visto … • Tecnologie im plem entate – XML (interoperabilità sintattica) – RDF rappresentazione standard dei m etadati – OWL et similia vocabolari condivisi e ontologie – RuleML, DAMLRules, OWLRules regole … Cosa abbiam o visto … • Sfide – Non ri- scirvere il Web – Applicazioni che elaborano il significato delle informazioni – Informazioni estratte dal testo Ontologie e regole Conoscenza … Cosa abbiam o visto • Metodi e Tecniche necessari – Natural Language Processing – Knowledge Mangaem ent & Representation • First Order Logic • Description Logic – Reasoning • Theorem Proving • Reasoning – Apprendim ento Autom atico • Non Supervisionato • Supervisionato