Scarica articolo Paper V3 (in formato PDF)

Transcript

Scarica articolo Paper V3 (in formato PDF)
I
--U
--A
--V
Università IUAV di Venezia
Dipartimento di pianificazione - AssoLab
Facoltà di Pianificazione del territorio
giornate di studio
cultural planning:
dalle tradizioni culturali alle strategie
di rigenerazione attraverso la cultura
22 e 26 novembre 2007, venezia, ca’ tron, santa croce 1957
Il Sistema Informativo Semantico delle risorse Culturali
Vincenzo Giannotti – Università IUAV di Venezia
[email protected]
Abstract
Il progetto del Sistema Informativo Semantico delle risorse Culturali (SISC) è mirato alla
creazione, memorizzazione e pubblicazione di informazioni sul patrimonio culturale del Veneto,
attraverso la realizzazione di un sistema informativo geografico operante sul web che favorisca
l’interoperabilità degli operatori e una loro partecipazione attiva al mantenimento delle
informazioni e alla formazione dell’offerta culturale.
Attualmente la Regione del Veneto sta cercando di comporre un quadro completo e omogeneo
dell’insieme delle risorse culturali del Veneto, di come tali risorse sono gestite, se e come
rispondono alla domanda di servizi legati alla cultura e alla fruizione di beni culturali, quali
relazioni intercorrono tra le diverse componenti etc. Col progetto del SISC vorremmo contribuire a
costruire questo quadro e a renderlo disponibile e utilizzabile, impiegando alcune delle tecnologie e
delle tecniche più avanzate messe a disposizione dalla nuova generazione del web 2.0: il Semantic
web.
Il Semantic web è una evoluzione del WWW attualmente conosciuto, che riesce a esprimerne i
contenuti, oltre che col linguaggio naturale, anche con un linguaggio orientato alla macchina, con lo
scopo di consentire una accessibilità alle informazioni e alle risorse, molto più dinamica e completa
rispetto all’attuale.
Lo strumento più evoluto per la descrizione dei contenuti del Semantic web è l’Ontologia
informatica, con cui siamo in grado di esprimere formalmente un dominio di interesse, attraverso la
costruzione di classi e sottoclassi e delle relazioni che intercorrono tra questi con lo scopo di:
effettuare ricerche avanzate su base semantica, comporre l’offerta culturale (palinsesti e percorsi) in
funzione della domanda, mantenere il sistema attraverso l’impiego di strumenti di partecipazione
collaborativa.
Il web – accesso all’informazione
Il World Wide Web (Web) è una rete di risorse di informazioni, basata sulla infrastruttura di
Internet. L’identificazione delle risorse avviene attraverso degli indirizzi univoci (p.e. gli URL:
Uniform Resorce Locator) e le informazioni sono presentate in un browser sotto forma di pagine
ipertestuali che consentono di navigare da una pagina all’altra.
Figura 1: The 200 most successful websites pinned down on the Tokyo Metro Map, ordered by category,
proximity, success, popularity and perspective. http://www.informationarchitects.jp/ia-trendmap-2007v2
L’accesso alle informazioni può avvenire direttamente, se conosciamo l’esatto indirizzo di una
pagina, ovvero attraverso i collegamenti ipertestuali; ma se desideriamo recuperare informazioni su
un determinato argomento e non sappiamo dove questo possa essere trovato nel web, possiamo
ricorrere all’uso dei motori di ricerca. I motori di ricerca sono dei sistemi automatici in grado di
indicizzare le pagine web e di fornire dei tool per ricercare informazioni all’interno delle pagine
indicizzate. In linea di massima essi funzionano così:
• analizzano il web con degli appositi programmi (spider) che memorizzano gli indirizzi
(URI=Uniform Resource Identifier) delle pagine visitate e come pure gli URI delle pagine a
queste collegate
• catalogano in un data base alcune delle pagine visitate e creano degli indici
• rispondono alla richiesta dell’utente in base a diversi criteri (ricorrenza parole chiave, n. di
link al documento etc..) presentando una lista delle pagine potenzialmente interessanti per
l’utente che ha effettuato la ricerca.
Gli attuali motori di ricerca, sebbene basati su algoritmi molto sofisticati, presentano però dei limiti
di cui è facile rendersi conto:
•
•
•
•
High recall, low precision - spesso una ricerca richiama un grandissimo numero di pagine,
molte delle quali poco attinenti con l’argomento cui siamo interessati
Low or no recall - se tentiamo di affinare la ricerca, è possibile ottenere poche o addirittura
nessuna risposta
Results highly sensitive to vocabulary - la ricerca è fortemente dipendente dal vocabolario
utilizzato in quanto è keyword-based; se un documento cui potremmo essere interessati
utilizza una differente terminologia, noi non lo troviamo
Results are single web pages - il risultato di una ricerca sono sempre delle pagine singole; se
l’informazione è distribuita su più pagine, siamo costretti ad effettuare delle nuove ricerche.
I risultati e l’efficacia di una ricerca dipendono in gran parte dalla abilità di chi la effettua e in ogni
caso una ricerca complessa, che preveda di analizzare molte relazioni, risulta molto dispendiosa per
la necessità di percorrere diverse ramificazioni che talvolta si rivelano di scarso interesse.
Il motivo di questa limitazione è presto detto: le pagine web sono per la maggior parte costruite
affinché siano direttamente interpretabili dall’uomo ma non dalla macchina. Il fatto che
l’informazione web sia human accessible non è certamente una cattiva cosa; è semplicemente una
limitazione in quanto di fatto si rinuncia a sfruttare appieno l’informazione di cui si potrebbe
disporre attraverso la rete. La chiave di volta per risolvere la faccenda è concettualmente molto
semplice: l’informazione deve essere memorizzata in un formato machine accessible e presentata in
un formato human accessible; e qui entrano in gioco la nuova generazione del web e il web
semantico, ovvero: the web for machines.
Il web semantico
Col termine web semantico (termine introdotto da Tim Berners-Lee, inventore del Web e direttore
del W3C1), si intende l’applicazione di una serie di tecniche e di tecnologie che hanno lo scopo di
migliorare in maniera sostanziale l’attuale WWW, associando alle risorse e alle pagine, dei metadati
che ne specifichino il contenuto e che siano interpretabili dalla macchina.
Le tecniche utilizzate, in particolare, fanno riferimento ad analoghe tecniche sviluppate negli anni
’90 per la rappresentazione della conoscenza in Intelligenza Artificiale ed in particolare agli
Ontology Management Systems. Le Ontologie informatiche sono infatti, come vedremo, gli
strumenti più avanzati e completi per la rappresentazione della conoscenza nel web in diversi campi
che spaziano dalla medicina, alla biologia e, naturalmente, alla gestione e pianificazione nel campo
dei beni culturali.
Tecnologie per il web semantico
Queste tecnologie, come accennato in precedenza, riguardano la possibilità di associare alle risorse
e alle pagine del web, dei contenuti informativi che siano interpretabili dalla macchina.
Alcune tecnologie - non tutte - che possono essere utilizzate per ottenere questo risultato sono:
• I metadati
• Ontologie informatiche
1
organizzazione internazionale che sviluppa tecnologie e standard per l'interoperabilità e che attualmente comprende
circa 300 membri tra società del settore (Microsoft, Oracle, Google, IBM, Nokia ...), società interessate (Boeing,
American Express ...), associazioni (Mozilla, Open Group …), Università e istituti di ricerca (MIT, CNR, Los Alamos
National Laboratory …)
I metadati
Attualmente la maggior parte delle pagine web sono scritte in HTML (Hyper Text Markup
Language), un linguaggio utilizzato per scrivere documenti ipertestuali e che è stato realizzato con
lo scopo principale della visualizzazione dei dati. Con HTML ci si preoccupa soprattutto del modo
in cui le informazioni vengono presentate e non del tipo o della struttura di tali informazioni.
L’impiego di questo linguaggio è fortemente limitativo perchè non dà alcuna informazione sulla
semantica del documento.
Se in HTML scriviamo:
<h1> Società XYZ </h1>
<h2> Direzione </h2>
Mario Rossi - Presidente <br>
e-mail [email protected] <br>
Giorgio Bianchi – Direttore <br>
e-mail [email protected] <br>
....
abbiamo delle stringhe che sono organizzate in una pagina col solo scopo di renderle intelligibili da
parte di un interlocutore umano, ma è difficile che la macchina riesca ad associare a Mario Rossi la
sua e-mail senza ricorrere ad un apposito programma di interpretazione.
Viceversa, se fossimo in grado di dare un significato alla informazione contenuta nella pagina,
avremmo fatto un grande passo avanti.
Questo è possibile utilizzando i metadati detti anche “dati sui dati”.
Rispetto all’esempio precedente potremmo scrivere:
<Società>
<NomeDellaSocietà> XYZ </ NomeDellaSocietà>
<Direzione>
<Presidente>
<nome>Mario Rossi </nome >
<e-mail> [email protected] </e-mail>
<telefono> ...........</telefono>
</ Presidente>
...........
Una struttura come questa può essere tranquillamente formattata per una consultazione diretta,
come pure può essere facilmente resa disponibile per essere interpretata da parte di una macchina.
Linguaggi che consentono di fare questo esistono e sono ormai ampiamente utilizzati:
• XML - (eXtensible Markup Language) è un metalinguaggio che consente di strutturare i dati
e di fornirli di significato. XML è nato per permettere agli utenti del Web di condividere le
informazioni su sistemi differenti e per descrivere tipi differenti e specifici di informazioni,
definire relazioni complesse di collegamenti fra documenti, trasmettere informazioni in
diversi formati
• RDF (Resource Description Framework) è un framework che serve per descrivere le risorse
presenti nel web, come per esempio un sito o i suoi contenuti. Una descrizione RDF include,
in generale, l'autore della risorsa, la data di creazione, la data dell'ultima modifica,
informazioni che descrivono i contenuti in base alle visite, le parole chiave per i motori di
ricerca e altro.
Dello sviluppo delle tecnologie per il web semantico e della definizione dei relativi standard, come
XML e RDF, si occupa l’organizzazione W3C, al cui sito si può fare riferimento per qualsiasi
approfondimento in materia.
Le ontologie informatiche
Ontologia è un termine utilizzato in filosofia per riferirsi allo studio della natura dell’esistenza e
delle cose.
Nell' informatica si parla di ontologie, dove ciascuna ontologia è il tentativo di formulare uno
schema concettuale esaustivo e rigoroso nell'ambito di un dato dominio; si tratta generalmente di
una struttura dati che contiene tutte le entità rilevanti, le relazioni esistenti fra di esse, le regole, gli
assiomi ed i vincoli specifici del dominio.
Solamente a scopo esemplificativo, una ontologia può essere rappresentata con un grafo, come il
seguente, realizzato per il SISC sulla base del modello ontologico standard ISO 21277 “A reference
ontology for the interchange of cultural heritage information“:
Figura 2: rappresentazione del modello ontologico standard ISO 21127
Dove nel grafo
Rappresentano classi, sottoclassi e componenti
Rappresentano proprietà
Rappresentano relazioni
È chiaro che in questo specifico caso, per il quale sono state sviluppate solo due classi e inserite
solo due relazioni, la rappresentazione tramite grafo è del tutto inadeguata e ha solamente lo scopo
di visualizzare la complessità che può assumere una ontologia.
In ogni caso, una ontologia, definendo questo sistema di relazioni tra i concetti, fa si che allorché sia
definito un oggetto fisico come istanza della ontologia stessa, questo assumerà tutte le relazioni e le
proprietà caratteristiche della classe in cui è collocato, portandosi dietro, per così dire, tutta la
conoscenza implicita in tale sistema di relazioni.
Si intravvede dunque l’enorme potenzialità che può fornire un simile strumento di modellazione
della conoscenza e il grande vantaggio di una sua utilizzazione nel web:
• superamento dei problemi dovuti all’uso di differenti terminologie e linguaggi
• esecuzione di ricerche su base semantica e non più rispetto alla occorrenza di parole chiave
• collezione e composizione della informazione a partire da più risorse e non più come
presentazione di pagine singole.
Un ontologia può essere utilizzata secondo il seguente semplice modello concettuale, attraverso il
quale l’accesso all’informazione nel web avviene con la mediazione della ontologia, realizzata
attraverso un apposito programma detto reasoning (ragionatore).
Ontology
repository
Reasoning
Information access
WEB
Figura 3: modello semplificato di utilizzazione della ontologia nel web
Esistono diversi linguaggi per la creazione di ontologie; il più sofisticato e completo è OWL 2
(Ontology Web Language) sviluppato proprio a questo scopo e che fa parte delle raccomandazioni
W3C. Esistono anche diversi eccellenti ambienti completi, per la creazione e l’utilizzazione delle
ontologie. Uno di questi, attualmente utilizzato nel progetto SISC, è Protégé3, sviluppato dalla
Stanford University in collaborazione con la Manchester University.
2
3
Per approfondimenti http://www.w3.org/TR/owl-features/
Per approfondimenti http://protege.stanford.edu/
Figura 4: con Protègè è possibile sviluppare direttamente in OWL ed esportare le ontologie in diversi formati tra
cui RDF, XML HTML
.
Figura 5: esempi di ontologie pubblicate, su diversi domini di interesse; pagina tratta da wikipedia
Il Progetto del Sistema Informativo Semantico delle risorse
Culturali (SISC)
La proposta del SISC è mirata alla creazione, memorizzazione e pubblicazione di informazioni sul
patrimonio culturale del Veneto, attraverso la realizzazione di un sistema informativo geografico
operante sul web che favorisca l’interoperabilità degli attori e una loro partecipazione attiva al
mantenimento delle informazioni e alla formazione dell’offerta.
Con queste premesse, il progetto viene studiato per concretizzare i seguenti obiettivi generali:
1. realizzare il sistema informativo geografico delle risorse culturali del Veneto, attraverso la
rilevazione e la mappatura di ciascuna singola componente e la implementazione di un
sistema di analisi e di presentazione dei dati (cruscotto). Il cruscotto consente di assemblare
e correlare dati di diversa natura con lo scopo di ottenere tematismi e report riguardanti, per
esempio: le presenze turistiche, la produzione culturale, i consumi culturali, aspetti
economici e occupazionali etc.
2. definire la struttura a rete necessaria a garantire l’interoperabilità degli stakeholder,
attraverso l’applicazione di un modello ontologico
3. implementare la rete attraverso la realizzazione di un web semantico, con lo scopo di
garantire l’autosostentamento del sistema attraverso la partecipazione attiva degli attori
coinvolti.
Con lo scopo di far fronte all’esigenza di operatività del progetto e di svilupparne le linee di ricerca
in una prospettiva applicativa ed utilizzabile anche già nel breve termine, il progetto si articola in
due fasi:
• una prima fase, viene dedicata alla composizione del “quadro conoscitivo delle risorse
culturali del Veneto” attraverso la realizzazione della banca dati geografica
• una seconda fase, dedicata alla realizzazione del cruscotto e del web semantico, attraverso
l’attivazione della rete degli stakeholder e strumenti di partecipazione collaborativa.
I fase: composizione del quadro conoscitivo delle risorse culturali
La composizione del quadro conoscitivo, si sviluppa attraverso le seguenti attività:
• definizione di un modello concettuale ontologico delle risorse culturali del Veneto,
attraverso una loro articolazione in classi, sottoclassi e componenti, l’attribuzione di
proprietà, la definizione delle relazioni e delle regole che intercorrono tra tali componenti.
L’attività di classificazione viene realizzata a partire da modelli definiti e standard.
La definizione di proprietà, relazioni e regole viene effettuata in funzione di obiettivi
specifici, che debbono essere individuati nel corso di una attività propedeutica di analisi.
• rilievo4 e rappresentazione cartografica, di ciascuna componente mappabile delle classi e
sottoclassi individuate5. Questa attività porterà alla realizzazione di un GIS (Geografical
Information System) delle risorse culturali
• rilievo e compilazione, per ciascuna di tali componenti, di una scheda anagrafica
• progettazione del cruscotto e della architettura generale del sistema, da realizzare secondo i
criteri del web semantico.
4
Da archivi esistenti, guide turistiche dati recuperabili dal web (p.e.
http://www.correrenelverde.it/musei/museiveneto.htm)
5
Sarebbe più corretto riferirsi ad istanze della ontologia che posseggano la proprietà di essere mappabili
II fase: cruscotto e web semantico
L’adozione del modello ontologico consente di sviluppare un progetto avanzato dello strumento di
elaborazione e di analisi dei dati, nel quale le informazioni oltre ad essere presentate, sono elaborate
dalla macchina, consentendo di effettuare ricerche su base semantica e disporre di una potenzialità
di accesso e di organizzazione delle informazioni molto migliore rispetto all’attuale.
A questo proposito e a supporto della realizzazione di questa fase, si sta già sperimentando
l’applicabilità di modelli di creazione bottom-up di un web semantico, per la estrazione di dati da
siti web e per la loro riorganizzazione in formato machine accessible. L’approccio suggerito è
interessante proprio perchè consentirebbe il riuso di molte informazioni già presenti in web,
nell’ambito di un sistema semantico a rete.
Inoltre, come già più volte ribadito, il modello ontologico pone le basi per la realizzazione di una
rete degli attori che attraverso il web consenta, sia il mantenimento dell’informazione relativa alle
proposte di servizi culturali, sia la realizzazione di palinsesti e percorsi culturali automatici.
In questa direzione si stanno sperimentando modelli di social and collaborative networking 6 per la
collaborazione spontanea nella organizzazione in categorie delle informazioni disponibili e in
definitiva, nel nostro caso, per la generazione spontanea della offerta culturale, secondo quelli che
sono i criteri delineati dal Web 2.07
Figura 6: in Flickr l’utilizzatore può assegnare dei tag che aiutano a trovare fotografie che hanno qualcosa in
comune. Flickr è un ottimo esempio di collaborative tagging.
6
Alcuni esempi interessanti sono Glocal Map (www.glocalmap.to) e Flickr (http://www.flickr.com/photos/tags)
a perceived second generation of web-based communities and hosted services — such as social-networking sites,
wikis, and folksonomies — which aim to facilitate creativity, collaboration, and sharing between users (def. from
Wikipedia)
7
Bibliografia
ISO 21127 - A reference ontology for the interchange of cultural heritage information
“Ontology Development 101: A Guide to Creating Your First Ontology” - Natalya F. Noy and
Deborah L. McGuinness, Stanford University
“A Semantic Web Primer” - Grigoris Antoniou and Frank van Harmelen – The MIT Press 2004
“TOWARDS THE SEMANTIC WEB”- John Davies, Dieter Fensel, Frank van Harmelen – 2003
“Enabling Semantic Web Services: TheWeb Service Modeling Ontology” - Dieter Fensel, Holger
Lausen, Axel Polleres, Jos de Bruijn, Michael Stollberg, Dumitru Roman, John Domingue –
Springer 2007
Tutorial XML - http://digilander.libero.it/shppotta/
“Le statistiche culturali in Europa” a cura di Saverio Gazzelloni, ISTAT