l`adozione di ontologie per la descrizione di risorse su reti tcp/ip
Transcript
l`adozione di ontologie per la descrizione di risorse su reti tcp/ip
UNIVERSITÀ DEGLI STUDI DI SIENA FACOLTÀ DI LETTERE E FILOSOFIA CORSO DI LAUREA IN SCIENZE DELLA COMUNICAZIONE L’ADOZIONE DI ONTOLOGIE PER LA DESCRIZIONE DI RISORSE SU RETI TCP/IP: IMPLICAZIONI PROGETTUALI E PROTOTIPAZIONE DI UN SISTEMA MULTI AGENTE PER LA GESTIONE DI ARCHIVI INFORMATICI DISTRIBUITI. Relatore: Prof. Antonio Rizzo Tesi di Laurea di Controrelatore: Prof. Marco Gori Guido Filippo Serio Anno Accademico 2001- 2002 Indice 1. Introduzione...........................................................................................................4 2. La metafora................................................................................................................8 3. L’organizzazione semantica: Le Ontologie come tecnologia abilitante......................................................................................11 3.1 LA CHIAVE DI LETTURA.........................................................................................14 4. Il caso di studio: I-Mass.....................................................................................16 4.1. 4.2. 4.3. 4.4. OBIETTIVI DEL PROGETTO I-MASS......................................................................17 ALCUNI CONCETTI...............................................................................................18 PERCHÉ UN SISTEMA MULTI-AGENTE (MAS)........................................................23 TIPOLOGIA DEGLI AGENTI IN I-MASS....................................................................23 5. Metodologie ..........................................................................................................27 5.1. 5.2. 5.3. I L PROCESSO ........................................................................................................27 I RISULTATI DEL PROCESSO DI ANALISI DELL'ATTIVITA': MACROSCENARI E MODELLI DELL'ATTIVITA' UTENTE ........................................................................41 VALUTAZIONE DEI MODELLI DI ATTIVITÀ E PRESENTAZIONE DEI MICROSCENARI.....................................................................................................60 6. Prototipi...................................................................................................................77 6.1. 6.2. 6.3. 6.4. 6.5. RAPPRESENTAZIONE DI IDEE CON MOCK-UP FISICI ..............................................77 I L PROTOTIPO DI RUOLO: LA RICERCA DEI DOCUMENTI ATTRAVERSO I METADATI ............................................................................................................80 I L PROTOTIPO DI RUOLO: VISUALIZZARE I DOCUMENTI TROVATI E LE LORO DESCRIZIONI E SCARICARLI .........................................................................85 I L PROTOTIPO DI RUOLO: RAGGRUPPAMENTO DELL'INFORMAZIONE ....................87 I L PROTOTIPO DI RUOLO: L'AGENTE DI COMUNITÀ ..............................................90 7. Conclusioni ............................................................................................................94 8. Bibliografia..............................................................................................................98 2 A Papà e Mamma 3 1. Introduzione Quando ho cominciato questo lavoro stavo ancora preparando l’esame di Intelligenza Artificiale; studiando il funzionamento dei motori di ricerca mi chiedevo come mai ad un certo punto dell’esistenza del World Wide Web (WWW) si sia sentito il bisogno di scomodare una disciplina come l’intelligenza artificiale per aiutarci a trovare ciò che cerchiamo nel mare indistinto dei documenti on-line. Non c'è forse una secolare tradizione di biblioteche, cataloghi e sistemi di classificazione che hanno reso possibile la condivisione della conoscenza scritta attraverso le generazioni? E soprattutto, perché non riusciamo a fare lo stesso con internet, ora che i nostri computer sono già tutti fisicamente interconnessi tra loro? Principalmente abbiamo tre ordini di problemi: La persona che effettua una ricerca è in genere un utente medio e non una persona addestrata ad estrarre informazioni da grandi masse di dati su argomenti non necessariamente di propria specifica competenza, specializzata nel fare ricerche, come per esempio i bibliotecari (almeno quelli bravi!). La velocità di trasformazione del web supera la velocità possibile di aggiornamento degli indici di un catalogo. È stato calcolato che in media ogni giorno nascono circa otto milioni di nuovi documenti nella forma di siti, pagine singole, nuovi files, messaggi ecc… Quand’anche ci si cimentasse nell’impresa di un’indicizzazione totale, questa sarebbe già obsoleta molto tempo prima che fosse terminata. Il mio PC ha impiegato 4 1 ora e 30 min. per indicizzare il contenuto di una partizione di appena 1 gigabyte! Non esiste alcun tipo di struttura semantica sul WWW, come invece accade nella nostra mente, dove le informazioni sono spontaneamente organizzate sulla base di concetti: non c’è alcun modo di chiedere ad Altavista quali pagine web sono collegate ad un concetto che c’interessa. Al massimo possiamo provare a tradurre mentalmente il concetto in una serie di parole chiave e poi chiedere al motore di ricerca quali pagine contengano quelle parole, ma si tratta di un gioco che anche agli utenti più esperti può non riuscire nel modo desiderato o non fornire risultati esaustivi. Può sembrare strano, ma nonostante il WWW contenga un numero di pagine dell’ordine di 109 la quantità di informazione estraibile da queste pagine è piccolissima. Non esiste informazione sull’informazione. Tutte le pagine sono uguali per un motore di ricerca; per intenderci, lo stato del WWW quando questa ricerca è incominciata1, era quello di una biblioteca nella quale i libri hanno copertine "bianche", prive di un qualsivoglia titolo o autore, e gli unici cataloghi sono fatti fotocopiando i libri e organizzando il tutto in base alla frequenza di occorrenza delle parole. La situazione non sembra essere cambiata sostanzialmente in questi due anni, se non per il fatto che sono state implementate migliori tecniche di ricerca con grande vantaggio per gli utenti e per le aziende che, come Google, hanno creduto in questa strada. Lo scopo di questa tesi è di mostrare come le descrizioni dei documenti nel WWW, la struttura semantica, unitamente ad algoritmi di ricerca sempre più 1 5 Questa ricerca è iniziata nel Giugno 2001. complessi, possano essere una chiave per aprire la porta di nuove e potenti funzionalità finora solo immaginate. Nella prima parte, capitoli secondo e terzo, si parlerà del problema nei termini di una metafora. Questo perché vorrei esporre il problema in modo che anche i non addetti ai lavori -visto che tutti e non solo gli addetti ai lavori saremo toccati in un modo o nell’altro dai cambiamenti tecnologici in corso- possano entrare nel merito dell’argomentazione che viene sostenuta in questa tesi di laurea. Nella seconda invece, capitoli dal quarto al sesto, verrà esposta l’esperienza fatta negli ultimi mesi relativa al progetto di ricerca europeo “I-Mass” , con particolare riferimento ai prototipi sviluppati. Nell’ultimo capitolo trarrò le conclusioni di questo lavoro. A conclusione di questa breve introduzione colgo l’occasione per ringraziare pubblicamente il mio relatore, prof. Antonio Rizzo, per avermi dato la stupenda opportunità di lavorare in questo progetto e la dott.sa Margherita Bacigalupo e la dott.sa Emanuela Mazzone per il loro preziosissimo aiuto in merito al lavoro svolto sul campo. 6 Collecting is a way of making the world around us more comfortable, and in collecting and saving people accumulate cultural values. C. Mok, Designing business, 1996 Adobe Press 7 7. Conclusioni I prototipi presentati nel precedente capitolo sono stati sottoposti al consorzio che li ha approvati nella riunione tenutasi a Siena nei primi giorni del mese di dicembre 2002. Questa tesi di laurea, partendo dalla definizione del termine ontologie, ha dunque dimostrato empiricamente l’importanza dell’uso di descrizioni condivise per l’identificazione delle risorse in internet; Elena infatti potrà fare diverse analisi qualitative di un enorme numero di antologie di editori concorrenti a Le Monnier, e Marco riuscirà a trovare in un pochi secondi l’indirizzo di posta elettronica della persona che cercava nel peraltro enorme sito web dell’ateneo di Tel Aviv. Inoltre, attraverso l’analisi dei lavori di Denise Schmandt Besserat, è stato mostrato come la creazione di un consenso attorno specifiche attività sia alla base dell’adozione di un’ontologia. Ad oggi diverse sono le convenzioni nate dal consenso attorno specifiche attività, tra queste lo scambio di posta elettronica ha prodotto protocolli (convenzioni) come il pop3 e SMTP, la condivisione di ipertesti ha prodotto l’http: Hyper Text Tranfer Protocol. Il protocollo http può essere visto come un convenzione adottata inizialmente all’interno di una comunità scientifica, concretizzatosi nel 1990, che ha avuto il merito di permettere la visualizzazione di ipertesti i cui componenti fossero conservati, invece che in un unico computer, in tanti computer quanti fossero stati i testi che componevano l’ipertesto, prescindendo tanto dalla locazione fisica quanto dal sistema operativo adottato; bastava essere collegati ad una rete peraltro già conosciuta all’epoca anche se sconosciuta alle masse: Internet. 94 Data la semplicità di adesione al sistema (bastava installare il software che oggi si chiama “server web” per condividere i contenuti e un browser per visualizzarli) oltre che alla sua multimedialità (era possibile, praticamente fin dall’inizio, includere immagini e suoni in un unico ipertesto) il consenso creatosi andò ben oltre i confini di questa o quella comunità scientifica. Questa rete di computer che potevano condividere ipertesti chiamata World Wide Web è stato il nostro primo incontro con la tecnologia Internet. Solo successivamente, almeno a livello di massa, abbiamo iniziato a usare anche altre reti di computer come quelle ftp, news, email. Tuttavia mentre da un lato continuiamo a usare determinati protocolli per lo stesso utilizzo per il quale erano stati progettati, come quelli per la posta elettronica POP3 & SMTP che si basano anch’essi su internet, assistiamo oggi ad utilizzi del WWW e del relativo protocollo non solo diversi da quello per cui era stato progettato, ma per certi versi inimmaginabili solo quindici anni fa! E-Commerce Newsgroup Brochure aziendali Internet Protocol www Editoria/ portali Condivisione files multimediali Webmail Gestione archivi distribuiti … E-Mail Elearning 95 Per supportare queste nuove attività è stato necessario creare particolari tipi di ipertesti che quasi nulla hanno a che fare con i vecchi ipertesti che avevano “popolato” il WWW nei suoi primi giorni. Fu necessaria la creazione di meta livelli all’interno di un ipertesto che solo la macchina che li ospitava poteva comprendere19. Sembra di ricordare la storia delle impressioni dei token nelle tavoltte d’argilla raccontataci da Denise Schmandt Besserat nei primi capitoli di questa tesi di laurea. La tecnica per semplice impressione dei token era pensata per una società relativamente semplice e non eccessivamente numerosa a cui bastava gestire alcuni semplici tipi di beni e il cui problema fondamentale era levarsi di torno le famose bulle . Col crearsi di una società sempre più complessa oltre che numerosa e con la creazione di forme centralizzate di governo abbiamo visto questa convenzione cadere in disuso e lasciare spazio, attraverso un nuovo accordo collettivo, alla ben più funzionale tecnica dell’incisione. Alla stessa maniera, come abbiamo visto nel capitolo quinto, pensiamo che determinate attività, tra cui quelle del personale delle istituzioni che operano nei beni culturali in tutta Europa, non siano possibilmente riconducibili alla semplice condivisione di ipertesti. Lo sviluppo di un protocollo e degli agenti che ne fanno uso entrambi modellati attraverso un’analisi puntuale dell’attività che dovranno supportare sembra possa essere un valido punto di partenza per la realizzazione di una rete con i vantaggi della strutturazione semantica in aggiunta a quelli ben noti provenienti dall’adozione del TCP/IP. Inoltre nel capitolo quarto 19 i noti linguaggi di scripting: partendo da Javascript che manteneva l’estensione del file html per finire con ActiveServerPages di Microsoft che modifica l’estensione in asp privilegiando l’uso del suo software. 96 abbiamo visto come, all’interno di una rete strutturata semanticamente come quella basata sul protocollo I-Mass, questa nuova tipologia di software, concettualizzata con il termine agente, possa essere messa in grado di esprimere le sue peculiarità cominciando a rendere appropriato l’uso del termine agenti “intelligenti”. 97 8. Bibliografia M. S. Ackerman, Augmenting Organizational Memory: A Field Study of Answer Garden , ACM Transactionson Information Systems,Vol.16,No.3, July1998. B. Amann C.Beeri I.Fundulaki M.Scholl, Ontology based Integration of XML Resources , Springler 2002 Bannon, L.J., Bodker, S., “Beyond the interface: encountering artifacts in use”, in Carroll, J. (ed.), Designing interaction: psychology at the human-computer interface, Cambridge U.P., New York, 1991 R. Barthes, Elementi di semiologia, Einaudi 1966. T. Berners-Lee, J. Hendler and O. Lassila, The Semantic Web, Scientific American, 05/2001. Bernstein M.Klein, Towards high precision service retrieval, Springler 2002. Carroll, J.M. (ed.), Scenario-based design, Envisioning work and technology in system development, Wisley & Sons, 1995 F. Castel, Ontological Computing , Communications of the ACM 06/2002. D. De Kerckhove, Brainframes; mente tecnologia mercato, Baskerville 1991. J.O. Everett ,D. G. Bobrow, R.Stolle, R. Crouch, V.de Paiva, C. Condoravdi, M.van den Berg and L. Polanyi, Making Ontologies Work for resolving redundancies Across Documents, Communications of the ACM 06/2002. 98 D.Fensel, Ontologies: A Silver bullet for knowledge management and electronic commerce, Springler 2001. D. Fensel C. Bussler A. Maedche, Semantic Web Enabled Web Services, Springler 2002. M. Frauenfelder, A smarter web,MIT Technology Review 03/2002. M. Gruninger and J. Lee, Ontology applications and desogn, Communications of the ACM 06/2002. N. Guarino Evaluating Ontological Decisions with Ontoclean , Communications of the ACM 06/2002. M. Hiltzik, A.I Reboots, MIT Technology Review 03/2002. J. Hjelm, Creating the semantic web with RDF, Wiley 2001. C.W. Holsapple and K.D. Joshi, A Collaborative Approach to Ontology design, Communications of the ACM 06/2002. Houde, S., Hill, C., “What do prototypes prototype?”, in Helander, M. Landauer, T.K., Prabhu, P. (ed.), Handbook of human-computer interaction, Second completely revised edition, Elsevier Science, 1997 INTRATEXT www.intratext.com Kaptelinin, V., “Activity Theory: implications for Human-computer interaction”, in Nardi, B.A. (ed.), the MIT Press, Cambridge, MA, 1996 99 B. Katz-J Lin S Felshin, Gathering knowledge for a question answering system from heterogeneous information sources , MIT A.I Lab 05/2002-11-14. [Kearney, 2002] Overview of RQL for I-MASS. Internal document. (http://www.Imassweb.org/private/workpackages/I-Mass_RQL_Spec.doc) H. Kim, Predicting how ontologies for the semantic web will evolve, Communications of the ACM 06/2002. G. Lakoff-M.J ohnson, Metaphors we live by, The University of Chicago Press 1980. P. Lévy, Le tecnologie dell’intelligenza, Ombre corte 2000. A. Magkanaraki S.Alexaki V.Christophides D.Plexousakis, Benchmarking RDF schema for the Semantic Web, Springler 2002. A. Maedche G. Neumann S.Staab, Bootstrapping an Ontology-based Information Extraction System, AIFB, Univ. Karlsruhe, 2001. E.Mazzone, Creare Modelli dell’Attività per Progettare l’Interazione: l’Applicazione ad un Sistema Multi-Agente per la Gestione di Contenuti Culturali, Università degli Studi di Siena, 2002 C. Mok, Designing business, Adobe Press 1996. B. Munari, Da cosa nasce cosa , Laterza 1981. Nardi, B.A., Context And Consciousness – Activity Theory And Human ComputerInteraction, Mit Press, 1996. D. Normann, Il computer invisibile, Apogeo 1998. 100 D. Normann, The Psychology of Everyday Things, Basic Books Inc., Publishers New York 1988. W.J. Ong, Oralità e scrittura: le tecnologie della parola, Il Mulino 1986. On-To-Knowledge (OTK) RQL : http://www.ontoknowledge.org/downl/del9.pdf P.F. Patel-Schneider D.Fensel, Layering the semantic web: problems and directions, Springler 2002. Rizzo, A., La natura degli artefatti e la loro progettazione, in Sistemi Intelligenti, a.XII, n.3, 2000 Y. Rogers, J. Preece and H. Sharp, Interaction design, Wiley 2002. D. Schmandt Besserat The history of counting”, Morrow NewYork1988 D. Schmandt-Besserat in “How Writing came about”, 1986. Austin, Texas: University of Texas Press S. Staab and R. Studer, Knowledge Processes and ontologies, IEEE 03/2001. S. Staab, A. Maedche and S. Handschuh, Creating Metadata for the Semantic Web, AIFB, Univ. Karlsruhe, 2001. Y. Sure M. Erdmann J. Angele, S. Staab, R.Studer, D.Wenke, OntoEdit: Collaborative Ontology development for the Semantic Web, Springler 2002. F. Van Harmelen Ontology-based Information Visualisation, VSW2001. Vivacqua H.Lieberman, Agents to Assist in Finding Help MIT Media Lab 05/2000. 101 102