l`adozione di ontologie per la descrizione di risorse su reti tcp/ip

Transcript

l`adozione di ontologie per la descrizione di risorse su reti tcp/ip
UNIVERSITÀ DEGLI STUDI DI SIENA
FACOLTÀ DI LETTERE E FILOSOFIA
CORSO DI LAUREA IN SCIENZE DELLA COMUNICAZIONE
L’ADOZIONE DI ONTOLOGIE PER LA
DESCRIZIONE DI RISORSE SU RETI TCP/IP:
IMPLICAZIONI PROGETTUALI E PROTOTIPAZIONE DI UN
SISTEMA MULTI AGENTE PER LA GESTIONE DI ARCHIVI
INFORMATICI DISTRIBUITI.
Relatore: Prof. Antonio Rizzo
Tesi di Laurea di
Controrelatore: Prof. Marco Gori
Guido Filippo Serio
Anno Accademico 2001- 2002
Indice
1. Introduzione...........................................................................................................4
2. La metafora................................................................................................................8
3. L’organizzazione semantica: Le Ontologie come
tecnologia abilitante......................................................................................11
3.1
LA CHIAVE DI LETTURA.........................................................................................14
4. Il caso di studio: I-Mass.....................................................................................16
4.1.
4.2.
4.3.
4.4.
OBIETTIVI DEL PROGETTO I-MASS......................................................................17
ALCUNI CONCETTI...............................................................................................18
PERCHÉ UN SISTEMA MULTI-AGENTE (MAS)........................................................23
TIPOLOGIA DEGLI AGENTI IN I-MASS....................................................................23
5. Metodologie ..........................................................................................................27
5.1.
5.2.
5.3.
I L PROCESSO ........................................................................................................27
I RISULTATI DEL PROCESSO DI ANALISI DELL'ATTIVITA': MACROSCENARI E
MODELLI DELL'ATTIVITA' UTENTE ........................................................................41
VALUTAZIONE DEI MODELLI DI ATTIVITÀ E PRESENTAZIONE DEI
MICROSCENARI.....................................................................................................60
6. Prototipi...................................................................................................................77
6.1.
6.2.
6.3.
6.4.
6.5.
RAPPRESENTAZIONE DI IDEE CON MOCK-UP FISICI ..............................................77
I L PROTOTIPO DI RUOLO: LA RICERCA DEI DOCUMENTI ATTRAVERSO I
METADATI ............................................................................................................80
I L PROTOTIPO DI RUOLO: VISUALIZZARE I DOCUMENTI TROVATI E LE
LORO DESCRIZIONI E SCARICARLI .........................................................................85
I L PROTOTIPO DI RUOLO: RAGGRUPPAMENTO DELL'INFORMAZIONE ....................87
I L PROTOTIPO DI RUOLO: L'AGENTE DI COMUNITÀ ..............................................90
7. Conclusioni ............................................................................................................94
8. Bibliografia..............................................................................................................98
2
A Papà e Mamma
3
1. Introduzione
Quando ho cominciato questo lavoro stavo ancora preparando l’esame
di Intelligenza Artificiale; studiando il funzionamento dei motori di
ricerca mi chiedevo come mai ad un certo punto dell’esistenza del World
Wide Web (WWW) si sia sentito il bisogno di scomodare una disciplina
come l’intelligenza artificiale per aiutarci a trovare ciò che cerchiamo nel
mare indistinto dei documenti on-line. Non c'è forse una secolare
tradizione di biblioteche, cataloghi e sistemi di classificazione che hanno
reso possibile la condivisione della conoscenza scritta attraverso le
generazioni? E soprattutto, perché non riusciamo a fare lo stesso con
internet, ora che i nostri computer sono già tutti fisicamente
interconnessi tra loro?
Principalmente abbiamo tre ordini di problemi:
La persona che effettua una ricerca è in genere un utente medio e non
una persona addestrata ad estrarre informazioni da grandi masse di dati
su argomenti non necessariamente di propria specifica competenza,
specializzata nel fare ricerche, come per esempio i bibliotecari (almeno
quelli bravi!).
La velocità di trasformazione del web supera la velocità possibile di
aggiornamento degli indici di un catalogo. È stato calcolato che in media
ogni giorno nascono circa otto milioni di nuovi documenti nella forma di
siti, pagine singole, nuovi files, messaggi ecc… Quand’anche ci si
cimentasse nell’impresa di un’indicizzazione totale, questa sarebbe già
obsoleta molto tempo prima che fosse terminata. Il mio PC ha impiegato
4
1 ora e 30 min. per indicizzare il contenuto di una partizione di appena 1
gigabyte!
Non esiste alcun tipo di struttura semantica sul WWW, come invece
accade nella nostra mente, dove le informazioni sono spontaneamente
organizzate sulla base di concetti: non c’è alcun modo di chiedere ad
Altavista quali pagine web sono collegate ad un concetto che
c’interessa. Al massimo possiamo provare a tradurre mentalmente il
concetto in una serie di parole chiave e poi chiedere al motore di ricerca
quali pagine contengano quelle parole, ma si tratta di un gioco che anche
agli utenti più esperti può non riuscire nel modo desiderato o non
fornire risultati esaustivi. Può sembrare strano, ma nonostante il WWW
contenga un numero di pagine dell’ordine di 109 la quantità di
informazione estraibile da
queste pagine è piccolissima. Non esiste
informazione sull’informazione. Tutte le pagine sono uguali per un motore
di ricerca; per intenderci, lo stato del WWW quando questa ricerca è
incominciata1, era quello di una biblioteca nella quale i libri hanno
copertine "bianche", prive di un qualsivoglia titolo o autore, e gli unici
cataloghi sono fatti fotocopiando i libri e organizzando il tutto in base
alla frequenza di occorrenza delle parole.
La situazione non sembra essere cambiata sostanzialmente in questi
due anni, se non per il fatto che sono state implementate migliori
tecniche di ricerca con grande vantaggio per gli utenti e per le aziende
che, come Google, hanno creduto in questa strada. Lo scopo di questa
tesi è di mostrare come le descrizioni dei documenti nel WWW, la
struttura semantica, unitamente ad algoritmi di ricerca sempre più
1
5
Questa ricerca è iniziata nel Giugno 2001.
complessi, possano essere una chiave per aprire la porta di nuove e
potenti funzionalità finora solo immaginate.
Nella prima parte, capitoli secondo e terzo, si parlerà del problema nei
termini di una metafora. Questo perché vorrei esporre il problema in
modo che anche i non addetti ai lavori -visto che tutti e non solo gli addetti
ai lavori saremo toccati in un modo o nell’altro dai cambiamenti
tecnologici in corso- possano entrare nel merito dell’argomentazione che
viene sostenuta in questa tesi di laurea. Nella seconda invece, capitoli dal
quarto al sesto, verrà esposta l’esperienza fatta negli ultimi mesi relativa
al progetto di ricerca europeo “I-Mass” , con particolare riferimento ai
prototipi sviluppati. Nell’ultimo capitolo trarrò le conclusioni di questo
lavoro.
A conclusione di questa breve introduzione colgo l’occasione per
ringraziare pubblicamente il mio relatore, prof. Antonio Rizzo, per
avermi dato la stupenda opportunità di lavorare in questo progetto e la
dott.sa Margherita Bacigalupo e la dott.sa Emanuela Mazzone per il loro
preziosissimo aiuto in merito al lavoro svolto sul campo.
6
Collecting is a way of making the
world around us more
comfortable, and in collecting and
saving people accumulate cultural
values.
C. Mok, Designing business,
1996 Adobe Press
7
7. Conclusioni
I prototipi presentati nel precedente capitolo sono stati sottoposti al
consorzio che li ha approvati nella riunione tenutasi a Siena nei primi
giorni del mese di dicembre 2002.
Questa tesi di laurea, partendo dalla definizione del termine ontologie,
ha dunque dimostrato empiricamente l’importanza dell’uso di descrizioni
condivise per l’identificazione delle risorse in internet; Elena infatti potrà
fare diverse analisi qualitative di un enorme numero di antologie di
editori concorrenti a Le Monnier, e Marco riuscirà a trovare in un pochi
secondi l’indirizzo di posta elettronica della persona che cercava nel
peraltro enorme sito web dell’ateneo di Tel Aviv. Inoltre, attraverso
l’analisi dei lavori di Denise Schmandt Besserat, è stato mostrato come la
creazione di un consenso attorno specifiche attività sia alla base
dell’adozione di un’ontologia.
Ad oggi diverse sono le convenzioni nate dal consenso attorno
specifiche attività, tra queste lo scambio di posta elettronica ha prodotto
protocolli (convenzioni) come il pop3 e SMTP, la condivisione di
ipertesti ha prodotto l’http: Hyper Text Tranfer Protocol.
Il protocollo http può essere visto come un convenzione adottata
inizialmente all’interno di una comunità scientifica, concretizzatosi nel
1990, che ha avuto il merito di permettere la visualizzazione di ipertesti i
cui componenti fossero conservati, invece che in un unico computer, in
tanti computer quanti fossero stati i testi che componevano l’ipertesto,
prescindendo tanto dalla locazione fisica quanto dal sistema operativo
adottato; bastava essere collegati ad una rete peraltro già conosciuta
all’epoca anche se sconosciuta alle masse: Internet.
94
Data la semplicità di adesione al sistema (bastava installare il software
che oggi si chiama “server web” per condividere i contenuti e un
browser per visualizzarli) oltre che alla sua multimedialità (era possibile,
praticamente fin dall’inizio, includere immagini e suoni in un unico
ipertesto) il consenso creatosi andò ben oltre i confini di questa o quella
comunità scientifica.
Questa rete di computer che potevano condividere ipertesti chiamata
World Wide Web è stato il nostro primo incontro con la tecnologia
Internet. Solo successivamente, almeno a livello di massa, abbiamo
iniziato a usare anche altre reti di computer come quelle ftp, news, email.
Tuttavia mentre da un lato continuiamo a usare determinati protocolli
per lo stesso utilizzo per il quale erano stati progettati, come quelli per la
posta elettronica POP3 & SMTP che si basano anch’essi su internet,
assistiamo oggi ad utilizzi del WWW e del relativo protocollo non solo
diversi da quello per cui era stato progettato, ma per certi versi
inimmaginabili solo quindici anni fa!
E-Commerce
Newsgroup
Brochure
aziendali
Internet
Protocol
www
Editoria/
portali
Condivisione
files
multimediali
Webmail
Gestione
archivi
distribuiti …
E-Mail
Elearning
95
Per supportare queste nuove attività è stato necessario creare
particolari tipi di ipertesti che quasi nulla hanno a che fare con i vecchi
ipertesti che avevano “popolato” il WWW nei suoi primi giorni. Fu
necessaria la creazione di meta livelli all’interno di un ipertesto che solo
la macchina che li ospitava poteva comprendere19.
Sembra di ricordare la storia delle impressioni dei token nelle tavoltte
d’argilla raccontataci da Denise Schmandt Besserat nei primi capitoli di
questa tesi di laurea. La tecnica per semplice impressione dei token era
pensata per una società relativamente semplice e non eccessivamente
numerosa a cui bastava gestire alcuni semplici tipi di beni e il cui
problema fondamentale era levarsi di torno le famose bulle . Col crearsi
di una società sempre più complessa oltre che numerosa e con la
creazione di forme centralizzate di governo abbiamo visto questa
convenzione cadere in disuso e lasciare spazio, attraverso un nuovo
accordo collettivo, alla ben più funzionale tecnica dell’incisione.
Alla stessa maniera, come abbiamo visto nel capitolo quinto, pensiamo
che determinate attività, tra cui quelle del personale delle istituzioni che
operano nei beni culturali in tutta Europa, non siano possibilmente
riconducibili alla semplice condivisione di ipertesti. Lo sviluppo di un
protocollo e degli agenti che ne fanno uso entrambi modellati attraverso
un’analisi puntuale dell’attività che dovranno supportare sembra possa
essere un valido punto di partenza per la realizzazione di una rete con i
vantaggi della strutturazione semantica in aggiunta a quelli ben noti
provenienti dall’adozione del TCP/IP. Inoltre nel capitolo quarto
19
i noti linguaggi di scripting: partendo da Javascript che manteneva l’estensione del file html per
finire con ActiveServerPages di Microsoft che modifica l’estensione in asp privilegiando l’uso del
suo software.
96
abbiamo visto come, all’interno di una rete strutturata semanticamente
come quella basata sul protocollo I-Mass, questa nuova tipologia di
software, concettualizzata con il termine agente, possa essere messa in
grado di esprimere le sue peculiarità cominciando a rendere appropriato
l’uso del termine agenti “intelligenti”.
97
8. Bibliografia
M. S. Ackerman, Augmenting Organizational Memory: A Field Study of Answer
Garden , ACM Transactionson Information Systems,Vol.16,No.3, July1998.
B. Amann C.Beeri I.Fundulaki M.Scholl, Ontology based Integration of XML
Resources , Springler 2002
Bannon, L.J., Bodker, S., “Beyond the interface: encountering artifacts in use”, in
Carroll, J. (ed.), Designing interaction: psychology at the human-computer
interface, Cambridge U.P., New York, 1991
R. Barthes, Elementi di semiologia, Einaudi 1966.
T. Berners-Lee, J. Hendler and O. Lassila, The Semantic Web, Scientific American,
05/2001.
Bernstein M.Klein, Towards high precision service retrieval, Springler 2002.
Carroll, J.M. (ed.), Scenario-based design, Envisioning work and technology in
system development, Wisley & Sons, 1995
F. Castel, Ontological Computing , Communications of the ACM 06/2002.
D. De Kerckhove, Brainframes; mente tecnologia mercato, Baskerville 1991.
J.O. Everett ,D. G. Bobrow, R.Stolle, R. Crouch, V.de Paiva, C. Condoravdi, M.van
den Berg and L. Polanyi, Making Ontologies Work for resolving redundancies
Across Documents, Communications of the ACM 06/2002.
98
D.Fensel, Ontologies: A Silver bullet for knowledge management and electronic
commerce, Springler 2001.
D. Fensel C. Bussler A. Maedche, Semantic Web Enabled Web Services, Springler
2002.
M. Frauenfelder, A smarter web,MIT Technology Review 03/2002.
M. Gruninger and J. Lee, Ontology applications and desogn, Communications of
the ACM 06/2002.
N. Guarino Evaluating Ontological Decisions with Ontoclean , Communications of
the ACM 06/2002.
M. Hiltzik, A.I Reboots, MIT Technology Review 03/2002.
J. Hjelm, Creating the semantic web with RDF, Wiley 2001.
C.W. Holsapple and K.D. Joshi, A Collaborative Approach to Ontology design,
Communications of the ACM 06/2002.
Houde, S., Hill, C., “What do prototypes prototype?”, in Helander, M. Landauer,
T.K., Prabhu, P. (ed.), Handbook of human-computer interaction, Second
completely revised edition, Elsevier Science, 1997
INTRATEXT www.intratext.com
Kaptelinin, V., “Activity Theory: implications for Human-computer interaction”, in
Nardi, B.A. (ed.), the MIT Press, Cambridge, MA, 1996
99
B. Katz-J Lin S Felshin, Gathering knowledge for a question answering system from
heterogeneous information sources , MIT A.I Lab 05/2002-11-14.
[Kearney, 2002] Overview of RQL for I-MASS. Internal document. (http://www.Imassweb.org/private/workpackages/I-Mass_RQL_Spec.doc)
H. Kim, Predicting how ontologies for the semantic web will evolve,
Communications of the ACM 06/2002.
G. Lakoff-M.J ohnson, Metaphors we live by, The University of Chicago Press 1980.
P. Lévy, Le tecnologie dell’intelligenza, Ombre corte 2000.
A. Magkanaraki S.Alexaki V.Christophides D.Plexousakis, Benchmarking RDF
schema for the Semantic Web, Springler 2002.
A. Maedche G. Neumann S.Staab, Bootstrapping an Ontology-based Information
Extraction System, AIFB, Univ. Karlsruhe, 2001.
E.Mazzone, Creare Modelli dell’Attività per Progettare l’Interazione: l’Applicazione
ad un Sistema Multi-Agente per la Gestione di Contenuti Culturali, Università
degli Studi di Siena, 2002
C. Mok, Designing business, Adobe Press 1996.
B. Munari, Da cosa nasce cosa , Laterza 1981.
Nardi, B.A., Context And Consciousness – Activity Theory And Human ComputerInteraction, Mit Press, 1996.
D. Normann, Il computer invisibile, Apogeo 1998.
100
D. Normann, The Psychology of Everyday Things, Basic Books Inc., Publishers New
York 1988.
W.J. Ong, Oralità e scrittura: le tecnologie della parola, Il Mulino 1986.
On-To-Knowledge (OTK) RQL : http://www.ontoknowledge.org/downl/del9.pdf
P.F. Patel-Schneider D.Fensel, Layering the semantic web: problems and directions,
Springler 2002.
Rizzo, A., La natura degli artefatti e la loro progettazione, in Sistemi Intelligenti,
a.XII, n.3, 2000
Y. Rogers, J. Preece and H. Sharp, Interaction design, Wiley 2002.
D. Schmandt Besserat The history of counting”, Morrow NewYork1988
D. Schmandt-Besserat in “How Writing came about”, 1986. Austin, Texas:
University of Texas Press
S. Staab and R. Studer, Knowledge Processes and ontologies, IEEE 03/2001.
S. Staab, A. Maedche and S. Handschuh, Creating Metadata for the Semantic Web,
AIFB, Univ. Karlsruhe, 2001.
Y. Sure M. Erdmann J. Angele, S. Staab, R.Studer, D.Wenke, OntoEdit:
Collaborative Ontology development for the Semantic Web, Springler 2002.
F. Van Harmelen Ontology-based Information Visualisation, VSW2001.
Vivacqua H.Lieberman, Agents to Assist in Finding Help MIT Media Lab 05/2000.
101
102