Tutorial Semantic Web

Transcript

Tutorial Semantic Web
Sem antic Web
Underneath the new Wave
Luigi Iannone
Sem antic Web: Cos’è?
•
•
•
•
Nuova tendenza del Web
Risposta ai problemi del Web
Estensione Standard del Web
Idea di (Sir) Berners- Lee (
http:/ / www.w3.org/ 2003/ 12/
tim bl_knighted)
Problem i del Web
• Inform ation Overload
– Sinonim i
– Polisemi
– Ambiguità in genere
• Inform azione non m achineprocessable
– HTML (infos m ischiate con grafica)
– Nessun ragionam ento
Risposte del Sem antic Web
•
•
•
•
Ontologie
Metadati
Logica
Ragionam ento

Inform azione m achine- processable
Sem antic Web: Architettura
http:/ / www.w3 .org/ DesignIssues/ diagrams/ sw- stack- 2 0 0 2 .png
Sem antic Web vs. Web
Web
Riuso degli standard
•
•
•
•
•
URL
URI
Unicode
XML
HTTP
Sem antic Web: Livelli
• Architettura a Pila (analogo a Pila
ISO/ OSI, Pila Protocolli Internet)
• Un livello  Un set di responsabilità
– Inform ation hiding
– Alta coesione interna
– Basso accoppiam ento tra livelli

Architettura m anutenibile e poco costosa
Livello sintattico
• Responsabilit à
– Concetto di documento univoco e astratto
– Strutturazione gerarchica di docum enti
Web
• Tecnologie (standard)
– URI/ URL
– XML/ XML Schem a/ DTD/ Nam espaces
– HTTP
Livello dei Metadati
• Responsabilit à:
– Concetto di risorsa (web e non web)
– Annotazione standard delle risorse
• Tecnologie (standard)
– RDF (serializzabile XML)
• Tutto è una URI
• Tutto va descritto con la m assim a sem plicità
possibile
• Tutto può dire tutto su tutto
Livello Ontologico
• Responsabilit à:
– Vocabolari condivisi
– Interoperabilità semantica (Le applicazioni
sanno di cosa stanno parlando)
• Tecnologie (standard)
– RDF Schema DAML+ OIL  OWL
(serializzabili in XML)
Livello Logico
• Responsabilit à:
– Inferenza
– Regole al top dell’ontologia
• Tecnologie (standard)
– RuleML + OWL = OWLRules
Livello della prova e della fiducia
• Responsabilit à:
– Risoluzione dei conflitti
– Web of Trust
• Tecnologie (standard)
– Nessuno standard
– Digital Signature
– Catene di (s)fiducia,Modelli Friend of a
Friend
Sem antic Web: Scenari
• Ricerca di inform azioni su Internet
• Classificazione di risorse
– Item reccom endation
– e- com merce
–…
• Sem antic Web Services
Ricerche su Internet
(Esem pio)
Voglio sapere chi è il direttore dell’
M.I.T.
Apro Google (http:/ / www.google.com )
• Inserisco MIT Chair
• Risultati: 815.000 documenti che
riguardano:
– Massachussets Institute of Technology
– m it (Tedesco) prep. con
– Chair (Inglese) n. sedia
–…
Classificazione di risorse …
Dato un insiem e di art icoli voglio
selezionare il revisore più adatto
conoscendone le com petenze
Tecnologie Tradizionali
• Ogni articolo n keywords
• Ogni revisore m keywords
• Intersezione (poco probabile)
… Classificazione di risorse
…
Dato un insiem e di art icoli voglio
selezionare il revisore più adatto
conoscendone le com petenze
Semantic Web
• Ogni articolo n concetti (di
un’ontologia)
• Ogni autore m com petenze (di
un’ontologia)
• Intersezione ed inferenza (probabile)
… Classificazione di risorse
Dato un insieme di Item s i.e. articoli di
un qualsiasi (e- ) shop ed un utente
voglio indovinare quali articoli
suggerire ad un generico utente
Approccio
• User Modeling
• Sem antic Index ing
Sem antic Web Services
• Evoluzione dei Web Services
• Applicazioni dinam icam ente
interfacciate
• Business 2 Business potenziato
Sem antic web: Com e?
Obiettivi
• Astrazione
– Scam bio indipendente da piattaform e e
formalismi proprietari
• Disambiguazione
– Sinonim ia, Polisem ia
• Ragionam ento
– Classificazione, Interoperabilità semnatica
… Sem antic Web: Com e? …
• Riuso del Web:
– Ri- scrittura dell’inform azione
Vs.
– Arricchimento delle risorse correnti
… Sem antic Web: Com e? …
• Inserimento di Meta- inform azione
– Informazione sull’informazione
– Form alism o Standard
– Vocabolario condiviso
– Ragionam ento su metadati
… Sem antic Web: Com e? …
Eye Disease
…
Is A
…
Retinoshisis
affects
incidence
Wom en
Articolo su eMedicine
affects
sulla retinoschisi
giovanile
Men
http:/ / www.em edicine.com / oph/ topic639.htm
0,0002 to 0,00004
Ipotetico processo
•
•
•
•
•
•
Estrazione di contenuto rilevante da testo non
strutturato
Trasform azione del inform azione rilevante in un
form ato adatto alle fasi successive
Prim a fase di apprendim ento autom atico
(addensam ento dei contenuti) t ipo clustering
Estrazione di una teoria prim ordiale basato
sull’output della fase precedente (prim a
concettualizzazione)
Raffinam ento della teoria (passo che può essere
reiterato)
Fusione con ontologie preesist enti
Estrazione di inform azione
rilevante
Obiettivo:
Individuare strutture nel test o che
possano essere framm enti di definizioni
di concetti.
… Estrazione di informazione
rilevante…
Retinoshisis juvenile is
an eye disease
Retinoschisis affects
m en
Retinoschisis affects
wom en
Retinoschisis has
incidence from 0,0002
to…
Raw Test
Concept examples description
… Estrazione di contenuto
rilevante…
Problem i
• Di solito la form a dei testi, in qualsiasi
lingua è m olto meno lineare e
strutturata di quella delle descrizioni
soggetto predicato oggetto che
vorremm o raggiungere
• Si potrebbe correre il rischio di
perdere molta informazione (frasi
coordinate, anafore…)
… Estrazione di informazione
rilevante
•
•
•
•
Approccio inziale
Estrazione di Noun Phrases (NP): Frasi
che contengono gruppi nominali
Utilizzo di Shallow Parsers (SP)
Risultati:
Estrazione di gruppi soggetto- verbooggetto ()
SP attuali m olto imprecisi (soprattutto
con frasi lunghe ())
Trasformazione del contenuto
rilevante
Obiettivo:
L’output di questo processo è ottenere
un insiem e di descrizioni in un form ato
standard adatto (e.g.: descrizioni RDF)
risultanti dalla trasformazione delle NP
ottenute nella fase precedente .
… Trasformazione del
contenuto rilevante …
Problem i
• In questa fase vanno gestite sinonim ia
e polisemia
• C’è bisogno di algoritm i di
disam biguazione
… Trasformazione del
contenuto rilevante
•
•
•
•
Approccio inziale
Trasformazione Noun Phrases+ verbo e
oggetto in RDF
Codifica dei nom i con le URI (ove presenti)
dei synsets di WordNet
Risultati:
Inform azione strutturata su cui si può
operare ()
Nessun algoritm o di word sense
disam biguation provato ()
Prima fase di apprendimento
automatico (comincia lo spettacolo)
Obiettivo
Raggruppam ento delle descrizioni
precedentemente ottenute in gruppi
omogenei. Senza alcuna supervisione
(~ clustering)
… Prima fase di
apprendimento automatico …
Problem i
• Dipende dall’ordine della
rappresentazione (su rappresentazioni
di ordine ≥1 non vi sono risultati
incoraggianti finora)
• Cluster omogenei di istanze
… Prima fase di
apprendimento automatico …
Approccio iniziale
• Descrizioni RDF di partenza com e
esempi
• Algoritm i di apprendim ento
autom atico da esempi
Attendere prego…
Risultati:
Attendere prego…
Estrazione di una teoria
primordiale
A
B
C
F
D
E
A  ….
C  A and not(B and C) ….
B  A and … D  A and …
Raffinamento della teoria
Obiettivo:
Perfezionare la concettualizzazione
ottenuta per ottenere m odelli più
predittivi
(Apprendim ento supervisonato)
Apprendim ento
supervisionato
Input
• Definizione di un concetto (dalle fasi
precedenti)
• Esempi positivi e negativi
• Definizione che copre qualche
negativo o non copre qualche positivo
( definizione erronea)
Output
Nuova definizione che m inim izza
l’errore
Fusione con ontologie
preesistenti
Obiettivo:
Fusione della
struttura con
quanto già
preesistente ed
integrazioni
eventuali in
entram be le
direzioni
Still pure dream
Ricerca in corso...*
•
•
•
•
•
•
Estrazione di contenuto rilevante da testo non
strutturato
Trasform azione del inform azione rilevante in un
form ato adatto alle fasi successive
Prim a fase di apprendim ento autom atico
(addensam ento dei contenuti) t ipo clustering
Estrazione di una teoria prim ordiale basato
sull’output della fase precedente (prim a
concettualizzazione)
Raffinam ento della teoria (passo che può essere
reiterato)
Fusione con ontologie preesist enti
* Le dim ensioni delle frecce non sono casuali
Stato dell’arte (Sem antic Web)
• Metadati  Resource Description
Framework (RDF)
• Concettualizzazioni Strutturate
(Ontologie)
 DAML+ OIL, OWL
Rappresentazione della
conoscenza (KR)
• Logica del prim o ordine (FOL) o suoi
framm enti
– Com pletam ente esplorata
– Flessibile
– Direttamente integrabile con i DB
• Logiche Descrittive (DL,DLs)
– Conoscenza strutturata (concetti nativi di
classe proprietà ecc.)
– Grande espressività
… Rappresentazione della
conoscenza (KR)
• Logica del prim o ordine (FOL) o suoi
framm enti
– Non decidibile se presa tutta
– Nessuna struttura sui domini
• Logiche Descrittive (DL,DLs)
– Spesso intrattabile
– Difficile m odellare relazioni m - n
Apprendim ento da esem pi
• Robusto su FOL (ad esem pio Inductive
Logic Program m ing)
• Non del tutto esplorato in DL
– Kietz ed altri hanno provato a usare ILP
per apprendere DL trasform ando DLFOL
– Kuesters ed altri usano approcci puri per
apprendere in DL
KR per il Sem antic Web
• DAML+ OIL è un istanza di una
particolare DL chiam ata SHIQ
• RDF è il linguaggio usato per
esprim ere asserzioni ( fatti in FOL)
Rim ane da valutare l’efficacia dei m etodi
di apprendim ento
Confronto prelim inare
• Approccio ILP – oriented (DLP)
– PAC lernability di alcune DL
– Richiede trasformazione in FOL con
aggiustamenti (perde vantaggio
strutturazione)
– Alcuni costrutti intraducibili (cfr. lavoro di
Borgida)
• Approccio puro
– Alcune operazioni intrattabili per alcune
DL
Cosa abbiam o visto
• Semantic Web
– Nuova generazione del Web
– Integrabile con il precedente WWW
– Ragionam ento inserito nel WWW
• Architettura a Livelli
–
–
–
–
–
Sintattico
Metadati
Ontologie
Logico
Prova e fiducia
… Cosa abbiam o visto …
• Tecnologie im plem entate
– XML
(interoperabilità sintattica)
– RDF
rappresentazione standard dei
m etadati
– OWL
et similia vocabolari condivisi e
ontologie
– RuleML, DAMLRules, OWLRules regole
… Cosa abbiam o visto …
• Sfide
– Non ri- scirvere il Web
– Applicazioni che elaborano il significato
delle informazioni
– Informazioni estratte dal testo 
Ontologie e regole  Conoscenza
… Cosa abbiam o visto
• Metodi e Tecniche necessari
– Natural Language Processing
– Knowledge Mangaem ent & Representation
• First Order Logic
• Description Logic
– Reasoning
• Theorem Proving
• Reasoning
– Apprendim ento Autom atico
• Non Supervisionato
• Supervisionato