Presentazione di PowerPoint - Università degli Studi di Bergamo
Transcript
Presentazione di PowerPoint - Università degli Studi di Bergamo
METODOLOGIE INFORMATICHE PER I BENI CULTURALI Sonia Maffei [email protected] I beni culturali e il Web 2.0 il Web 2.0 permette agli utenti web di partecipare e interferire con i contenuti dei siti Nel campo dei beni culturali esso ha permesso lo sviluppo di nuovi concetti e nuove applicazioni: http://video.pmi.it/file/vedi/8/web-20/ – il sapere come impresa collettiva – network communities culturali – Digital libraries internazionali WEB 2.0 • Il web 2.0 permette infatti a un numero sempre maggiore di persone di partecipare e interferire con i contenuti dei siti, portando commenti, creando nuovi archivi con dati presi dalla rete o con testi, documenti e foto personali, ibridi dove il concetto di autore si sfuma fortemente. Questo nuovo quadro di riferimento impone anche agli enti e alle istituzioni che si occupano di beni culturali una generale riflessione sui metodi di sviluppo della ricerca, della comunicazione e della valorizzazione della cultura online. DIBATTITO WEB 2.0 • La profonda trasformazione a cui si sta assistendo ha aperto un dibattito molto acceso sulla valutazione del fenomeno, nel quale si fronteggiano punti di vista diversi: • ad un estremo molti osservatori esprimono forte preoccupazione per la manipolazione e l’inquinamento dei dati che possono essere prodotti da non specialisti, da persone non accreditate professionalmente, e pongono l’accento sul problema dell’attendibilità delle informazioni online e sull’importanza del riconoscimento di autorità in grado di garantire qualità e accuratezza dei dati. DIBATTITO WEB 2.0 • All’altro estremo prevale invece l’entusiasmo per le potenzialità offerte da una partecipazione sempre più massiccia ai contenuti del web, sulla scia del successo dei blog e del modello felice delle network communities, che, come Wikipedia rendono concreta l’utopia di poter creare prodotti culturali di qualità con il contributo collettivo degli utenti. folksonomy nel WEB 2.0 • A fronte della nuova situazione nuovi vocaboli sono stati coniati per indicare il sovvertimento gerarchico operabile attraverso la massiccia partecipazione degli utenti: • Folksonomia (folksonomy) è il termine attribuito a Thomas Vander Wal e molto utilizzato oggi per indicare la possibilità offerta dalla rete di operare sempre nuove classificazioni basate sulle preferenze via via espresse dagli utenti (in altre parole una categorizzazione collaborativa di informazioni mediante l’uso di parole chiave scelte liberamente), • in opposizione a taxonomy, l’ordinamento imposto dall’alto, dalle gerarchie scientifiche e istituzionali, emblema del primo periodo del web (Vander wal 2009). WEB 2.0 • A questi fenomeni di connette un’altra tendenza molto importante, legata alla presa di coscienza delle potenzialità offerte dalla massiccia pubblicazione e consultazione in rete delle risorse culturali: la costruzione di nuove biblioteche digitali che, come Europeana (http://www.europeana.eu/portal/ ), tendono a raccogliere e interrelare dati di natura diversa, tradizionalmente appartenenti ad ambiti separati, come i musei, le biblioteche, gli archivi, i centri musicali, le mediateche e videoteche ecc. Digital library WEB 2.0 Mutamenti terminologici I definizione Anni ’80 e ’90 del Novecento legata alla semplice idea della trasposizione digitale di una biblioteca reale Digital library • Diverse definizioni nel tempo: il termine è stato soggetto nel corso degli anni a definizioni diverse che rivelano spesso impostazioni metodologiche assai differenti: l’espressione è spesso stata connessa da un lato con Electronic Library (biblioteca elettronica) e dall’altro con Virtual Library (biblioteca virtuale). Digital library • Definizione estesa: deposito ibrido di dati, un repository di rappresentazioni digitali di oggetti ed entità di varia natura e tipologia, aggregati insieme da relazioni continuamente modificabili e rimodellabili sulla base delle diverse esigenze degli utenti. – La definizione supera la frammentazione del patrimonio culturale reale. Digital library – l’idea di un meta-archivio di dati culturali con percorsi e connessioni determinate dalle singole richieste degli utilizzatori. – Idea di superare la frammentazione del patrimonio culturale reale, dove rigide separazioni istituzionali imposte da motivi organizzativi e sociali storicamente determinati limitano spesso la comprensione e la stessa ricontestualizzazione degli oggetti e delle informazioni. I vantaggi dell’immaterialità dei dati digitali, il loro essere dunque esonerati da problemi di spazio e soprattutto dalle pressanti esigenze pratiche della conservazione materiale dei manufatti, contribuisce a rendere possibile i2010 Biblioteche digitali • L’iniziativa “i2010 Biblioteche digitali” promossa dalla commissione europea con l’obiettivo di rendere il patrimonio culturale europeo e l’informazione scientifica più facilmente accessibili ed utilizzabili online, sta cercando di potenziare questi strumenti invitando anche gli stati membri della comunità europea a creare strutture di digitalizzazione su vasta scala e creare azioni coordinate per la creazione di meta-archivi digitali (Martinelli 2008). “i2010 Biblioteche Digitali” Origine ed Obiettivi • • • • Promossa dalla Commissione nel 2005 nel quadro della strategia per la Società dell’Informazione “i2010” Obiettivo: rendere il patrimonio culturale europeo e l’informazione scientifica più facilmente accessibili ed utilizzabili online 28 Aprile 2005: Lettera di 6 capi di Stato e di Governo al Presidente della Commissione per una Biblioteca Digitale Europea 30 Settembre 2005: Comunicazione della Commissione “i2010 Biblioteche Digitali” “i2010 Biblioteche Digitali” Aspetti generali 2 aree di riferimento: 1. 2. Contenuto culturale Informazione scientifica (pubblicazioni e dati scientifici) 3 assi strategici: 1. 2. 3. Digitalizzazione: Accessibilità online Conservazione digitale L’iniziativa comprende qualsiasi tipo di media in quanto digitale o digitalizzabile: libri, giornali e riviste, audiovisivo, musica, foto, mappe, immagini, informazioni archivistiche, patrimonio museale, siti archeologici, etc. “i2010 Biblioteche Digitali” Livelli di intervento 1 • Livello Politico • Raccomandazione della Commissione del 24 agosto 2006; • Conclusioni del Consiglio “Cultura” del 13 novembre 2006; • Risoluzione del Parlamento europeo del 27 settembre (relazione on. Descamps) Gruppo di Esperti degli Stati Membri: implementazione della Raccomandazione e delle Conclusioni del Consiglio: rapporto per Consiglio e Parlamento previsto nel corso del 2008 “i2010 Biblioteche Digitali” Livelli di intervento 2 • Consultazione degli“stakeholders”: • Consultazione online (225 risposte) • Gruppo di Esperti di Alto Livello •Copyright •Informazione scientifica •Partnership Pubblico-Privato • Livello tecnico: Programma Quadro di Ricerca (tecnologie ICT, Centri di Competenza, Infrastrutture), Programma eContentplus • Livello operativo: creazione della Biblioteca Digitale Europea “i2010 Biblioteche Digitali” Conclusioni • L’iniziativa i2010 Biblioteche Digitali opera in primo luogo per migliorare le condizioni quadro (giuridiche, organizzative, finanziarie e tecniche) per la digitalizzazione, l’accessibilità’ online e la conservazione digitale. • Gli strumenti attualmente utilizzati sono forme di regolazione “morbida” (Raccomandazione, strumenti finanziari, facilitazione del dialogo tra stakeholders, coordinamento tra Stati Membri). • Azioni specifiche sono state intraprese per il settore dell’informazione scientifica, che presenta caratteristiche peculiari rispetto al settore culturale. • Il secondo asse portante dell’iniziativa, e’ volto a sostenere la creazione della Biblioteca Digitale Europea, intesa come punto di accesso comune e multilingue al patrimonio culturale europeo digitale distribuito. http://www.europeana.eu/portal/ • • • • Vergilius Vermeer Morandi Michelangelo http://www.europeana.eu/portal/ Digital-divide • Il cosiddetto 'digital-divide' (il divario che divide un paese da un altro nelle politiche di investimento e sviluppo e nelle strategie di utilizzo e sfruttamento delle risorse digitali) tra l'Italia e l'Europa è altamente sfavorevole per il nostro paese, che rivela inoltre anche un forte divario anche interno tra nord e sud, tra centro e periferie. Digital library Problemi • Difficoltà nell’uso di Standard, strumenti essenziali per l’interoperabilità e preziosi antidoti contro l’obsolescenza degli archivi informatici. • Conservazione delle memorie digitali, una questione non solo tecnologica, ma legata anche a strategie di progettazione e memorizzazione dei dati con la quale saremo sempre più costretti a fare i conti per evitare inefficienze e dispersioni di risorse umane ed economiche. Digital library Problemi • Diritto d’autore: ostacolo all’estensione di testi e opere recenti. rischio del cosiddetto “buco nero del XX secolo”, cioè la forzata assenza dalla rete per problemi di copyright delle opere di autori del Novecento • Scarsa efficacia della ricerca online: difficoltà di interazione e necessità di creazione di motori di ricerca specializzati. Problemi ricerca online • messa a punto di motori digitali che permettano il recupero di informazioni non solo generalistiche, ma al contrario di estrema specializzazione, senza gli ostacoli del multilinguismo, della ridondanza linguistica, del cosiddetto “rumore” (l’eccessivo recupero di dati, ostacolo tra i più gravi delle ricerche online). • Uso di Metadati Metadati • metadati ("dati su (altri) dati" • In essi è contenuta l’informazione che descrive un insieme di dati e che dà possibilità di accorparli in categorie più ampie o di riconoscerne la struttura ecc.) siano essi metadati descrittivo-semantici (MDS), che servono a identificare e a recuperare documenti primari, o metadati amministrativo-gestionali (MAG), necessari per la gestione della struttura. Metadati Un esempio di metadati è il sistema Dublin Core (Dublin Core Metadata Initiative) OCLC (On line Computer Library Center) • http://it.wikipedia.org/wiki/Dublin_Core Storia • Il trattamento informatico di testi è stato storicamente il primo settore di sperimentazione dell’informatica applicata alle scienze umane. • In periodo preinformatico non erano mancate imprese eroiche nel settore lessicografico, nello spoglio e lettura di testi: basti pensare ai vari thesauri lessicografici tratti dalla Bibbia e dai testi sacri, come quelli chiamati Distinctiones, sorta di enormi dizionari alfabetici di simboli che risalivano al XII secolo. Storia • alla fine dell’Ottocento del Thesaurus Linguae Latinae aveva visto cooperare gli studiosi di cinque università tedesche all’ordinamento manuale di oltre dieci milioni di schede lessicali. • l’analisi della particella “et” nello schedario del Thesaurus L.L. a Monaco implicava per lo studioso che avesse avuto l’opportunità di accedervi, lo spoglio di quaranta cassetti di 1200 schede ciascuno. Storia • L’impresa storica dell’Index thomisticus informatizzato, iniziata nel 1949 da padre Busa e terminata solo nel 1980, non rappresenta soltanto la prima impresa che dette inizio alla linguistica computazionale, ma può essere presa come caso esemplare di un ampio periodo si sperimentazioni, perché essa ha attraversato tutte le prime fasi della storia dell’elaborazione elettronica di testi, dalle schede perforate ai nastri magnetici, ai cdrom (Busa 1987). Storia • attività lessicografiche e creazione automatica di • thesauri • rimari • incipitari • concordanze • frequenze • indices locorum Problemi • lessici storici • varianti diacroniche e sincroniche di scrittura • (la parola “esempio” poteva essere scritta in vari modi: “esemplo”, “essempio”, “exemplo” ecc.) • ma anche gli omografi • faccia Problemi • Schedatura – Rappresentazione indiretta di un documento • Testo libero – Rappresentazione diretta di un documento Linguaggi di markup • Il termine markup (marcatura) deriva dall'ambiente dei tipografi che erano soliti marcare con annotazioni le parti del testo che andavano evidenziate o corrette, per poi segnalarle al compositore o al dattilografo. La tecnica per creare un testo con l'uso di marcatori (detti anche tag o codici) richiede una serie di convenzioni, codificate in un linguaggio di codifica o marcatura. In generale un linguaggio di markup descrive i meccanismi di rappresentazione (strutturali, semantici o presentazionali) del testo che utilizza convenzioni standardizzate. <ricetta> <titolo>Tiramisù</titolo> <preparazione> Mescolare il primo ingrediente e il secondo in una terrina. Disporre il composto ottenuto sul terzo ingrediente e lasciare in frigorifero per almeno 20 minuti. </preparazione> <tempo>Mezz’ora</tempo> </ricetta> <antologia> <poesia autore=“Petrarca” opera=“Canzoniere”> <titolo tipo=“numerico”>I</titolo> <stanza n=“1”> <verso>Voi ch'ascoltate in rime sparse il suono</verso> <verso>di quei sospiri ond'io nudriva 'l core</verso> <verso>in sul mio primo giovenile errore</verso> <verso>quand'era in parte altr'uom da quel ch'i'sono,</verso> </stanza> <stanza n=“2”> <verso>del vario stile in ch'io piango et ragiono</verso> <verso>fra le vane speranze e 'l van dolore</verso> <verso>ove sia chi per prova intenda amore</verso> <verso>spero trovar pietà, nonché perdono.</verso> </stanza> </poesia> </antologia> <?xml version=“1.0” encoding=“iso-8859-1” standalone=“yes”?> <classe> <studente> <nome>Mario</nome> <cognome>Rossi</cognome> <foto src=“Mario.jpeg”/> <id tipo=“matricola”>123456</id> <data tipo=“Nascita”> <giorno>23</giorno> <mese>Agosto</mese> <anno>1986</anno> </data> </studente> <studente> <nome>Chiara</nome> <cognome>Verdi<cognome> <foto src=“Chiara.jpeg”/> <id tipo=‘matricola’>3632836</id> <data tipo=“Nascita”> <giorno>1</giorno> <mese>Gennaio</mese> <anno>1985</anno> </data> </studente> </classe> LA CODIFICA DEL TESTO UNA DEFINIZIONE “La codifica del testo può essere definita come 1 una rappresentazione di un testo su un supporto digitale, in funzione di un determinato punto di 2 vista , secondo un codice condiviso in modo 3 sostanziale dall’uomo e dall’elaboratore elettronico cui tale codifica è destinata” 1 TESTO • • Astrazioni Successione di fonemi rappresentabile tramite grafemi vs • • • • Segmentazioni logiche e partizioni interne con organizzazione gerarchica e funzionale (indipendentemente dalla loro resa tipografica): capitoli, paragrafi… Istanze di responsabilità dell’autore: il titolo ed il nome dell’autore, intertitoli, le note… • • DOCUMENTO Supporto materiale in cui il testo viene conservato (un libro, un papiro, una lapide…) Disposizione delle tracce fisiche dei segni grafici. Distribuzione dei vari elementi all’interno della pagina Indagine del supporto materiale: tipi di carattere, collocazione delle immagini, elementi introdotti non dall’autore del testo. 2 • Se la codifica è funzionale ad un determinato punto di vista esistono molteplici modelli di codifica possibili, tra cui il codificatore sceglie quello più consono ai suoi obbiettivi. • Dato che la codifica è un mezzo per rendere esplicita l’interpretazione di un testo e che tale interpretazione non è mai univoca, risulta chiaro che la codifica stessa non può mai essere assoluta. 3 • CODICE CONDIVISO TRA UOMO ED ELABORATORE L’elaboratore deve essere in grado di trasmettere il messaggio che colui che ha memorizzato il documento aveva intenzione di comunicare al proprio destinatario. • Il testo deve essere codificato in Machine Readable Form (MRF), capace di conservare e ritrasmettere quanto il codificatore aveva ritenuto di rilevanza semantica. • Un documento digitale in MRF può essere condiviso da ogni elaboratore solo se aderisce ad uno standard che ne garantisce la portabilità. • La risorsa digitale deve essere fruibile indipendentemente da hardware, software e piattaforma utilizzati. STANDARD • Standard Formali = insieme di norme relative a una particolare tecnologia emesse da un ente istituzionale nazionale o internazionale deputato a tale scopo (International Standardization Organization, ISO) • Standard di Fatto = tecnologie che per la loro capillare diffusione sono stati adottate dalla comunità internazionale come standard formali, anche se la loro rapida evoluzione e il loro formato proprietario le rende meno portabili. PERCHE’ CODIFICARE? DATO • Non ha significato intrinseco, a meno che non venga inserito in una struttura che lo colleghi ad altri dati. • Es.: 24129 vs INFORMAZIONE • Informazione = dati + struttura • Legando i dati ad un contesto specifico l’informazione si carica di significato • L’informazione in un certo dominio è costituita da dati strutturati ed organizzati in maniera esplicita • 24129: Cap. di Bergamo, Numero di conto, Numero di matricola Testo • Un testo come flusso di caratteri, parole e frasi è una fonte di dati linguistici. • Il testo, però, è anche un’entità altamente strutturata, all’interno della quale i dati linguistici sono correlati secondo piani di organizzazione multipli (informazione linguistica): Struttura del testo (sezioni, capitoli, paragrafi, titoli) Struttura del contesto (autore, data pubblicazione, finalità del testo) Struttura linguistica (info morfologiche, sintattiche, semantiche) Il testo diventa fonte di informazione linguistica quando alcuni di questi livelli di organizzazione e strutturazione vengono resi espliciti attraverso la codifica. CHE COSA CODIFICARE? LA CODIFICA NON E’ ASSOLUTA…. …DIPENDE DALLO SCOPO • • • • la struttura, che implica l’individuazione delle partizioni strutturali del testo (capitoli, paragrafi, stanze, atti, scene…) il formato, cioè la riproduzione dell’aspetto fisico di un dato documento (grassetti, corsivi, maiuscole, suddivisione in pagine e in righe…) il contenuto, che comporta il riconoscimento di determinati aspetti semantici (nomi propri, funzioni narrative, citazioni, numeri, strutture sintattiche…) …. COME CODIFICARE? 1. Programmi di text processing WYSIWYG (What you see is what you get) o presentazionali: • Esempi: Ms-Word; FrontPage; Netscape Composer; Adobe PDF • Rappresentano graficamente sullo schermo del computer un documento nella forma che questo assumerà una volta stampato • Codifica invisibile all’utente che interagisce con il software tramite appositi dispositivi (menu, pulsanti ecc..) comandati dall’interfaccia grafica e di cui vede gli effetti direttamente a video. Le etichette di marcatura vengono automaticamente inserite dal programma in relazione alle scelte dell’utente. Vantaggi • Facilità di utilizzo • Codifica veloce Svantaggi • Codifica esclusivamente delle caratteristiche di formato • Codifica difficilmente controllabile perché nascosta all’utente • Formati proprietari (problema di portabilità): il documento può essere visualizzato solo dallo stesso tipo di applicazione in cui è stato creato oppure da un apposito visualizzatore. Le specifiche di formato non sono diffuse pubblicamente in modo esplicito e la casa produttrice si riserva il diritto di cambiarle a propria discrezione. 2. Linguaggi di markup Per conciliare: • rappresentazione di informazione astratta • portabilità Un esempio di linguaggio presentazionale: PDF Portable Document Format Prodotto della Adobe introdotto nel 1993, nato da una trasformazione di Adobe Postscript. PDF (Portable Document Format) • Nasce con l'obiettivo di risolvere il problema di poter condividere e distribuire documenti con testi e grafica formattati su piattaforme differenti, mantenendo il layout originale. • Esprime il meglio delle proprie potenzialità proprio con quelle applicazioni finalizzate alla stampa, pur mantenendo una buona resa a video • Per visualizzare i file PDF occorre Acrobat Reader, oggi ribattezzato Adobe Reader, un'applicazione gratuita liberamente distribuibile e disponibile per praticamente tutte le piattaforme informatiche esistenti: si calcola che sino ad oggi siano state distribuite più di cinquecentomilioni di copie di tale software. • Per la creazione di file PDF si utilizza il software Acrobat prodotto dalla Adobe; da qualche anno, tuttavia, sono comparse sul mercato soluzioni alternative (sebbene non complete come Acrobat), alcune delle quali gratuite, per la creazione di documenti PDF. • I file PDF vengono creati per mezzo di una stampante virtuale chiamata Distiller: in pratica il file viene creato in una qualsiasi applicazione, word processor o altro, e poi inviato alla stampante virtuale che lo "traduce" in PDF. • Nel corso degli anni PDF è diventato uno standard de facto per la distribuzione di documenti elettronici, nel maggio del duemila è stato ufficialmente approvato dall'ANSI come standard ufficiale. VANTAGGI • Notevole diffusione • Capacità di integrare contenuti multimediali, grafica vettoriale e moduli interattivi. • Grande capacità espressiva dal punto di vista della grafica e della impaginazione del testo. LIMITI • E’ un formato proprietario. • E’ linguaggio che si concentra esclusivamente sugli aspetti formali e presentazionali della pagina, e non un linguaggio di mark-up aperto nato per la marcatura logica e strutturata. • Un file in formato PDF deve essere creato, avendo in mente il dispositivo su cui questo verrà visualizzato. Il documento PDF potrà soltanto essere ingrandito o rimpicciolito per adeguarsi al dispositivo altrimenti, ad esempio, su schermi piccoli come quelli dei Personal Digital Assistant (PDA), si dovrà ricorrere ad un fastidioso scrolling verticale ed eventualmente anche orizzontale. Una parziale soluzione… • Per cercare di ovviare a questo inconveniente a partire dalla versione cinque di Acrobat i file PDF possono contenere tag (Tagged PDF), che consentono di riformattare il flusso di testo al fine di adattarsi a dispositivi diversi. Al file viene applicato una sorta di 'involucro' editabile di metadati • Tuttavia, essendo il PDF rivolto principalmente alla rappresentazione finale della pagina ed alla sua riproduzione su video o a stampa, difficilmente può possedere la ricchezza di metainformazione e la conseguente versatilità ed adattabilità alle esigenze più diverse di un documento basato su di un linguaggio di markup. AREA DI LAVORO BARRA DEGLI STRUMENTI RIQU ADR O DI NAVI GAZI ONE RIQ UDA RO DEL DOC UME NTO Possibilità del riquadro di navigazione Riquadro di navigazione: segnalibri Riquadro di navigazione: Pagine Spostarsi nella pagina • • • • • • Pulsanti Vista> vai a Segnalibri Pagine Link Articoli Zoom Adattare la pagina alle dimensioni della finestra Cos’è una digital library definizione e definizioni • Il termine Digital Library compare alla fine degli anni Ottanta per indicare una collezione di documenti digitali organizzati per contenuto e finalizzata ad un’utenza specifica. Cos’è una digital library • In realtà le sue origini ideali vanno ricercate nel cuore del Cinquecento: la famosa ruota dei libri inventata da Agostino Ramelli e illustrata e descritta nel suo libro Le diverse e artificiose macchine (Parigi, appresso l’autore, 1588), permetteva di stare seduti e “leggere una grande quantità di libri senza muoversi dal proprio posto”. Precedenti digital libraries • nel 1945, Vanervar Bush progettò il Memex (MEMory Extender) una macchina analogica capace di permettere al lettore di creare di percorsi associativi attraverso archivi e documenti diversi • “as we may think”( Bush 1945, consultabile all’indirizzo http://www.ps.unisb.de/~duchier/pub/vbush/vbush.shtml) Definzioni • La prima definizione di Digital Library, risalente al 1993, è quella di Christine Borgman (Borgman 1993, Borgman 2000), che la identifica con una struttura in grado di combinare un servizio, un’architettura di rete, un insieme di risorse informative (banche dati testuali, dati numerici, immagini, documenti sonori, video) e un insieme di strumenti per localizzare, recuperare e utilizzare l’informazione reperita. Definzioni • Una seconda definizione, fornita da Charles Oppenheim e David Smithson (Oppenheim, Smithson 1999) e poi seguita anche da William Arms (Arms 2000), intende la biblioteca digitale come un servizio informativo, in cui tutte le risorse siano disponibili in formato digitale e le funzioni di acquisizione, archiviazione, preservazione, recupero e accesso siano realizzate attraverso l’uso di tecnologie digitali. Definzioni • In modo più articolato Gary Marchionini ed Edward Fox (Marchionini, Fox 1999) individuano quattro componenti proprie dello spazio informativo in cui nasce la biblioteca digitale, la comunità degli utenti, la tecnologia, i servizi, (l’elemento essenziale delle biblioteche digitali del web 2.0 con possibilità di aiuto in linea, personalizzazione dei servizi, creazioni di forum e communities) e infine i contenuti, (i documenti e nei formati prescelti). Definzioni • fin dalla fine degli anni Novanta si contrappongono due diverse concezioni » una più liberamente legata al mondo digitale, incentrata sull’utente e focalizzata sulla creazione di uno spazio liberamente fruibile dal ricercatore, » l’altra più tradizionale che vede la biblioteca digitale come un’espansione delle pratiche presenti nella biblioteca reale, come estensione di nuovi servizi offerti dagli utenti. Definzioni • Workshop on distributed knowledge work environments di Santa Fe del 1999 • “il concetto di Digital Library non è quello di una collezione digitale dotata di strumenti di gestione dell’informazione. È piuttosto uno spazio in cui mettere insieme collezione, servizi e persone a supporto dell’intero ciclo di vita della creazione, uso, preservazione dei dati, informazione e conoscenza” Definzioni • proposta dai bibliotecari della Digital Libraries Federation (DLF) – Le biblioteche digitali sono organizzazioni che forniscono le risorse, compreso il personale specializzato, per selezionare, organizzare dare l’accesso intellettuale, interpretare, distribuire, preservare l’integrità e assicurare la persistenza nel tempo delle collezioni digitali così che queste possano essere accessibili prontamente ed economicamente per una comunità definita o per un insieme di comunità Classificazioni delle digital libraries • in base ai formati con cui i documenti vengono archiviati alla fonte e distribuiti agli utenti: formato immagine, formati in MRF, formati applicativi proprietari codifiche ‘puro testo’, basate sui sistemi di codifica ASCII, ISO 8859 o UNICODE; formati applicativi proprietari quali Postscript, Portable Document Format (PDF), Rich Text Format (RTF); . • In base alla modalità di accesso e di consultazione dei documenti elettronici: – distribuzione remota di file contenenti documenti digitali in vari formati per la consultazione off-line; – consultazione online di documenti in ambiente Web; – consultazione avanzata di documenti mediante dispositivi di information retrieval o sistemi con funzionalità di analisi testuale particolari. Classificazioni delle digital libraries • In base al tipo di ente, organizzazione o struttura che ha realizzato la biblioteca: – Progetti di ricerca promossi dal mondo bibliotecario tradizionale, – progetti di ricerca accademici e – progetti non istituzionali creati da volontari. Classificazioni delle digital libraries – Progetti di ricerca promossi dal mondo bibliotecario tradizionale, – Digital Libraries Initiative, finanziato congiuntamente dalla National Science Foundation (NSF), dalla Department of Defense Advanced Research Projects Agency (DARPA) e dalla NASA con lo scopo di sviluppare e sperimentare nuove tecnologie per l’archiviazione e la gestione di archivi in formato digitale resi disponibili attraverso reti di comunicazione http://rs6.loc.gov/ammem/dli2/ – Biblioteca Digitale Italiana http://www.bibliotecadigitaleitaliana.it/genera.jsp Classificazioni delle digital libraries • progetti di ricerca accademici e – l’Oxford Text Archive (OTA http://ota.ahds.ac.uk/ realizzato dall’Oxford University Computing Services (OUCS), che è composto da oltre 2.500 testi elettronici di ambito letterario e saggistico. Studiosi e centri di ricerca di tutto il mondo hanno fornito all’ OTA le trascrizioni e le edizioni elettroniche effettuate nella loro attività scientifica, permettendo così la costruzione di un archivio formato da edizioni filologicamente molto qualificate, che rappresentano un’importante risorsa scientifica, specialmente per la comunità dei ricercatori e studiosi di area umanistica. I testi sono per la maggior parte codificati in formato SGML o XML, in base alle specifiche TEI. Classificazioni delle digital libraries Progetti non istituzionali creati da volontari Million Book Project, http://www.archive.org/details/millionbooks (promosso dai volontari dell’associazione Internet Archive) il Project Gutenberg (http://www.gutenberg.net/), Classificazioni delle digital libraries • In base al tipo di ente, organizzazione o struttura che ha realizzato la biblioteca: – Progetti di ricerca promossi dal mondo bibliotecario tradizionale, – progetti di ricerca accademici e – progetti non istituzionali creati da volontari. • In base alle funzionalità offerte all’utente – le banche dati di anastatiche digitali; – gli archivi di opere in formato MRF ma senza strumenti di ricerca particolarmente raffinati; – le banche dati di testi codificati, dotate di motori di ricerca testuali specifici che consentono interrogazioni molto raffinate e altre funzionalità particolari: indici, itinerari tematici attraverso i testi ecc. Digital Libraries • Testi come immagine Gallica: <http://gallica.bnf.fr/> • Testi trascritti in formato MRF Manuzio: <http://www.liberliber.it/biblioteca/index.htm> Testi trascritti MRF e ricercabili Digital Libraries • Testi come immagine Gallica: <http://gallica.bnf.fr/> Digital Libraries • Testi trascritti in formato MRF Bibliotheca Augustana: http://www.fh-augsburg.de/~harsch/augustana.html Digital Libraries • Testi trascritti in formato MRF Manuzio: <http://www.liberliber.it/biblioteca/> Sonia Maffei Digital Libraries • Virtual Library • Servizi offerti dalle biblioteche • Cataloghi on-line • Prestito • bibliografie • Digital Library • Biblioteche di testi integrali Digital Libraries Gallica: <http://gallica.bnf.fr/> • Testi come immagine • 90.000 opere • • • • Struttura della biblioteca: Cura nella presentazione Divisione per sezioni Per cronologia Digital Libraries Gallica: <http://gallica.bnf.fr/> • Testi come immagine • • • • • Ricerca: Per temi Per autori Per titoli Per date Digital Libraries Gallica: <http://gallica.bnf.fr/> • Testi come immagine • Rappresentazione indiretta del documento • Rappresentazione diretta del documento Digital Libraries Gallica: <http://gallica.bnf.fr/> • Rappresentazione indiretta del documento • Astrazione • Scheda Digital Libraries Gallica: <http://gallica.bnf.fr/> • Testi come immagine • Principio del catalogo on-line • Con aggiunta della visualizzazione del libro Digital Libraries Gallica: <http://gallica.bnf.fr/> • Testi come immagine Vantaggi e Svantaggi Digital Libraries Gallica: <http://gallica.bnf.fr/> • Testi come immagine • Vantaggi • Per l’utente: Semplicità d’uso Riproduzione completa Gran numero di testi Digital Libraries Gallica: <http://gallica.bnf.fr/> • Testi come immagine Vantaggi Per l’istituzione Costo Tempistica Facilità di costruzione facile assemblamento di un gran numero di testi Conservazione testi rari Digital Libraries Gallica: <http://gallica.bnf.fr/> • Testi come immagine • Svantaggi Per l’utente impossibilità di ricercare all’interno dei testi. Per cercare una parola occorre sfogliare tutto il libro: Lentezza di internet, costi ecc. Digital Libraries Gallica: <http://gallica.bnf.fr/> • Testi come immagine • Svantaggi Per l’istituzione impossibilità di rielaborare il materiale linguistico con nuovi progetti Digital Libraries Gallica: <http://gallica.bnf.fr/> Impossibile ricercare all’interno dei testi. Perché il libro è per il computer una semplice immagine Digital Libraries Gallica: <http://gallica.bnf.fr/> Impossibile ricercare all’interno dei testi. Perché il libro è un insieme di valori di colore e luminosità, non un insieme di parole Digital Libraries • Testi trascritti in formato MRF • Bibliotheca Augustana • • • • Ordinamento dei testi Per grandi temi Per Autore Per Cronologia Digital Libraries • Testi trascritti in formato MRF • Bibliotheca Augustana • Ogni autore ha una scheda biografica e poi il testo interamente riprodotto Digital Libraries • Testi trascritti in formato MRF • Bibliotheca Augustana • Vantaggi e svantaggi Digital Libraries • Testi trascritti in formato MRF • Bibliotheca Augustana • Vantaggi per l’utente • Il lettore può anche ricercare nel testo (in modo elementare) • Non è anastatica, problema rapporti testo e paratesto Digital Libraries • Testi trascritti in formato MRF • Bibliotheca Augustana • Vantaggi per l’istituzione • Il costo è ancora contenuto • Non occorre avere edizioni originali di riferimento Digital Libraries • Testi trascritti in formato MRF • Bibliotheca Augustana • Svantaggi • La ricerca è molto semplificata • Molta attenzione alle edizioni utilizzate (problema copyright) Digital Libraries • Testi trascritti in formato MRF • Liber Liber, progetto Manuzio • • • • • Ordinamento dei testi Per grandi temi Per Autore Per Cronologia Possibilità di scaricare il testo Digital Libraries • Testi trascritti in formato MRF • Liber Liber, progetto Manuzio • Schede biografiche autori • Per le scuole Digital Libraries • Testi trascritti in formato MRF • Liber Liber, progetto Manuzio • Scheda su ogni opera con indicazioni • Dell’edizione utilizzata e dei collaboratori ecc. Digital Libraries • Testi trascritti in formato MRF • Liber Liber, progetto Manuzio • Non più scannerizzazione, ma • Lavoro di trascrizione di testi Digital Libraries • Testi trascritti in formato MRF • Liber Liber, progetto Manuzio Fasi di lavoro: Scannerizzazione OCR Controllo e verifica Digital Libraries Testi trascritti MRF e ricercabili con raffinati strumenti di ricerca Intratext: http://www.intratext.com/ Digital Libraries • Testi trascritti in formato MRF e ricercabili con raffinati strumenti di ricerca • Intratext • http://www.intratext.co m Digital Libraries •Testi trascritti in formato MRF e ricercabili con raffinati strumenti di ricerca Intratext Elenchi tematici e Per autore Per titolo Per lingua •Glossario Guida rapida Digital Libraries •Testi trascritti in formato MRF e ricercabili con raffinati strumenti di ricerca Intratext Il testo è integrale ed elaborato con particolari strumenti Digital Libraries •Testi trascritti in formato MRF e ricercabili con raffinati strumenti di ricerca Intratext Frequenze Concordanze Contesti Digital Libraries •Testi trascritti in formato MRF e ricercabili con raffinati strumenti di ricerca Frequenza: quante volte una forma compare in un testo Differenze tra Forma o Lemma Digital Libraries •Testi trascritti in formato MRF e ricercabili con raffinati strumenti di ricerca Forma: Sequenza di caratteri FACCIA VENTI MANI Lemmatizzare o non lemmatizzare? • L’impossibilità di trattare con il computer la diversità semantica e lo spessore espressivo del linguaggio • introduce la lemmatizzazione manuale • FACCIA • BASSO RILIEVO, BASSORILIEVO • ROSA, ROSAE Digital Libraries •Testi trascritti in formato MRF e ricercabili con raffinati strumenti di ricerca Lemma: Forma padre a cui si riconducono tutte le forme figlie FARE FACCIA FACCIA Digital Libraries •Testi trascritti in formato MRF e ricercabili con raffinati strumenti di ricerca Concordanza: “Concorda” una forma nel suo contesto, cioè nella frase o nella porzione di testo che la contiene Digital Libraries •Testi trascritti in formato MRF e ricercabili con raffinati strumenti di ricerca Concordanza: Vari tipi di contesti KWIC KWOC (testo dimostrativo da non usare per lettura o citazione) Digital Libraries • Testi trascritti e ricercabili CIBIT: http://www.bibliotecaitaliana.it/ Sonia Maffei CIBIT http://www.bibliotecaitaliana.it/index.asp Per la creazione dei metadati è stato utilizzato lo schema METS (Metadata Encoding and Transmission Standard) — elaborato dal Network Development and MARC Standards Office of the Library of Congress - che consente la rappresentazione di metadati descrittivi, tecnici e gestionali in XML, Sonia Maffei CIBIT http://www.bibliotecaitaliana.it/index.asp Lo schema XML è stato mappato a sua volta con lo schema MAG (Metadati gestionali amministrativi e strutturali per le risorse digitali) elaborato dal Gruppo di studio sugli standard e le applicazioni di metadati nei beni culturali promosso dall'ICCU (Istituto Centrale per il Catalogo Unico delle biblioteche italiane e per le informazioni bibliografiche). Sonia Maffei CIBIT http://www.bibliotecaitaliana.it/index.asp Dublin Core Metadata Element Set, versione 1.1 http://www.iccu.sbn.it/dublinco.html Sonia Maffei CIBIT http://www.bibliotecaitaliana.it/index.asp Codifica dei testi Cibit ha adottato come linguaggio di codifica dei testi lo schema di codifica della Text Encoding Iniziative (TEI P4), basato sulla sintassi del linguaggio XML (Extensible markup Language). Sonia Maffei CIBIT http://www.bibliotecaitaliana.it/index.asp • Livello 1: divisioni strutturali • Livello 2: divisioni tematiche; enfasi e segmenti in lingue diverse dalla lingua base del testo Sonia Maffei BiViO http://bivio.signum.sns.it/ Per la creazione dei metadati è stato utilizzato lo schema TEI (Text Encoding Initiative) rappresentazione di metadati descrittivi, tecnici e gestionali in XML. Sonia Maffei CIBIT http://www.bibliotecaitaliana.it/index.asp • Livello 1: divisioni strutturali • Livello 2: divisioni strutturali con indicazioni esplicite di tipologia • Livello 3: Citazioni esplicite con riferimento autorei • Livello 4: segmenti in lingue diverse dalla lingua base del testo • Livello 5: rapporto testo e immagini Sonia Maffei Corpus informatico belloriano http://biblio.signum.sns.it/bellori/ Digital Libraries Testi trascritti MRF e ricercabili Biblioteca BIVIO <http://www.bivionline.it/> Digital Libraries NTERT ARCHVE Monumenta rariora: http://moratesti.cribecu.sns.it/: Europeana • http://dev.europeana.eu/ A partire dalla primavera 2007 Gallica sta evolvendo nel più ambizioso progetto Europeana, sviluppata dalla Bibliothèque Nationale de France (BnF), nel quadro di un progetto di Biblioteca digitale europea in collaborazione con la Biblioteca nazionale ungherese Széchényie e con la Biblioteca nazionale del Portogallo, ma destinato ad allargarsi ad altre collaborazioni. Il progetto è in linea dal 22 marzo 2007 e attualmente propone 12.000 testi librari, liberi da diritti d’autore in formata immagine e in formata testa ottenuto tramite OCR, ma promette di espandersi al ritmo di 100.000 testi all’anno241. Europeana • http://dev.europeana.eu/ . I testi sono ricercabili per epoca (dal XVI al XX secolo), per lingua (tedesco, inglese, spagnolo, francese, italiano, latino e portoghese), per provenienza (Bibliothèque nationale de France, Biblioteca nazionale ungherese Széchényie e la Biblioteca nazionale del Portogallo) e per autore. Europeana nasce sulla scia di un progetto più ampio, in cui confluirà quello della European Library.242 Il portale, che sta digitalizzando gli archivi delle più importanti biblioteche continentali, è sostenuto dall’Unione europea come contributo fondamentale alla costruzione di un’identità culturale europea, alla condivisione del sapere e alla preservazione della diversità fra le culture. L’European Library www.edlproject.eu/ , on line dal 2005, mette già assieme in OPAC 47 biblioteche nazionali del continente, ma vuole raggiungere l’obiettivo di oltre 6 milioni di opere on line - fra libri, documenti e filmati - entro il 2010 American Memory • http://memory.loc.gov/ • Un progetto di digitalizzazione di parte del proprio patrimonio è stato intrapreso anche dalla Library of Congress di Washington, che peraltro partecipa attivamente al programma DLI. Il primo risultato dei programmi di digitalizzazione della Library of Congress è il progetto American Memory,243 un archivio di documenti storici, testi, lettere e memorie private, foto, immagini, filmati relativi alla storia del paese dalle sue origini ai giorni nostri. Tutti i documenti, parte dell’enorme patrimonio documentale della biblioteca, sono stati digitalizzati in formato SGML per i materiali testuali, JPEG e MPEG per immagini e filmati, e inseriti in un grande archivio multimediale che può essere ricercato secondo vari criteri. Biblioteca Digitale Italiana http://www.bibliotecadigitaleitaliana.it/genera .jsp Anche in Italia è stato avviato un progetto nazionale per la digitalizzazione del patrimonio culturale testuale. Si tratta del programma quadro Biblioteca Digitale Italiana, promosso e fïnanziato nel 2001 dalla Direzione Generale Beni Librari e dell’Editoria del Ministero per i Beni Culturali. Gli obiettivi di Biblioteca Digitale Italiana sono quelli di avviare e coordinare progetti di digitalizzazione, principalmente in ambito bibliotecario, ma soprattutto di definire linee guida e documenti di indirizzo in questo settore, al fine di garantire qualità scientifica, affidabilità e sostenibilità economica dei singoli progetti. Oxford Text Archive (OTA) Tra i progetti sviluppati presso sedi universitarie e centri di ricerca istituzionali da ricordare è l’Oxford Text Archive (OTA), realizzato dall’Oxford University Computing Services (OUCS). L’archivio è costituto da oltre 2.500 testi elettronici di ambito letterario e saggistico, oltre che da alcune opere di riferimento standard per la lingua inglese (ad esempio il British National Corpus e il Roget Thesaurus). La maggior partedei titoli sono collocati nell’area culturale anglosassone, ma non mancano testi latini, greci e in altre lingue nazionali (tra cui l’italiano). Gran parte delle risorse dell’OTA provengono da singoli studiosi e centri di ricerca di tutto il mondo, che forniscono a questa importante istituzione le trascrizioni e le edizioni elettroniche effettuate nella loro attività scientifica. Per questo l’archivio è costituito da edizioni altamente qualificate dal punto di vista filologico, che rappresentano un’importante risorsa di carattere scientifico, specialmente per la comunità umanistica. I testi sono per la maggior parte codificati in formato SGML o XML, in base alle specifiche TEI. Poiché in molti casi si tratta di opere coperte da diritti di autore, solo una parte dei testi posseduti dall’OTA sono accessibili gratuitamente su Internet. Oxford Text Archive (OTA) http://ota.ahds.ac.uk/ L’accesso alla collezione pubblica dell’OTA si basa su una interfaccia Web particolarmente curata, che mette a disposizione dell’utente un catalogo elettronico dei testi ricercabili per autore, genere, lingua, formato e titolo. Una volta individuati i documenti desiderati, l’utente può decidere di effettuare il download dei file selezionati o di accedere a una maschera di ricerca per termini che genera un elenco di concordanze in formato Key Word In Context (KWIC, in cui il termine ricercato viene mostrato nell’ambito di un contesto variabile di parole che lo precedono e lo seguono), da cui poi è possibile accedere all’intero documento. Electronic Text Center (ETC) Altro importante progetto è Electronic Text Center (ETC) che ha sede presso la University of Virginia (http://etext.lib.virginia.edu/), un centro di ricerca che ha lo scopo di creare archivi di testi elettronici in formato SGML e di promuovere lo sviluppo e l’applicazione di sistemi di analisi informatizzata dei testi. Tra le varie iniziative, l’ETC ha realizzato un’importante Digital Library, che ospita molte migliaia di testi in SGML/TEI, suddivisi in diverse collezioni. La gestione dell’archivio testuale è affidata a un motore di ricerca in grado di interpretare le codifiche SGML, e si possono, per esempio, fare ricerche sulla base dati testuale, specificando che la parola cercata deve apparire solo nei titoli di un capitolo, o nell’ambito di un discorso diretto. La biblioteca contiene testi in diverse lingue: inglese, francese, tedesco, Electronic Text Center (ETC) http://etc.dal.ca/ in collaborazione con la University of Pittsburgh, sono stati resi disponibili anche testi in giapponese, nell’ambito di un progetto denominato Japanese Text Initiative. Tuttavia, solo alcune di queste collezioni sono liberamente consultabili da una rete esterna al campus universitario della Virginia: tra queste la Modern English Collection, con oltre 1.500 titoli, che contiene anche illustrazioni e immagini di parte dei manoscritti; la Middle English Collection; la Special Collection, dedicata ad autori afro-americani; la raccolta British Poetry 1780-1910. Perseus http://www.perseus.tufts.edu/ Un altro prestigioso progetto in area umanistica è il Perseus Project.248 Il progetto, avviato nel 1985, si proponeva di realizzare un’edizione elettronica della letteratura greca. Da allora sono state realizzate due edizioni su CD-ROM, divenute un insostituibile strumento di lavoro nell’ambito degli studi classici, contenenti i testi di quasi tutta la letteratura greca in lingua originale e in traduzione, nonché un archivio di immagini su tutti gli aspetti della cultura dell’antica Grecia. Nel 1995 è stata creata anche una versione Web del progetto, la Perseus Digital Library. Il sito consente di accedere gratuitamente a tutti i materiali testuali del CD, a una collezione di testi della letteratura latina in latino e in traduzione inglese, alle opere complete del tragediografo rinascimentale inglese Christopher Marlowe, e a vari materiali relativi a Shakespeare. Perseus http://www.perseus.tufts.edu/ L’individuazione e la consultazione dei singoli testi possono avvenire mediante un motore di ricerca, o un elenco degli autori contenuti in ciascuna collezione, da cui si passa direttamente alla visualizzazione on line. I testi greci possono essere visualizzati sia nella traslitterazione in alfabeto latino, sia direttamente in alfabeto greco, sia in traduzione inglese (quest’ultima è disponibile anche per i testi latini). Per i testi greci è anche possibile avere informazioni morfosintattiche e lessicografiche per ogni parola. TIL, Testi Italiani in Linea, http://til.scu.uniromal.it/ In ambito italiano troviamo il progetto TIL, Testi Italiani in Linea, coordinato dal CRILet (Centro ricerche Informatica e Letteratura, Dipartimento di studi Filologici Linguistici e Letterari di Roma ‘La Sapienza’.250 Si tratta di una Digital Library incentrata sulla tradizione letteraria italiana, articolata in diverse collezioni. I testi, codificati in formato XML/TEI, sono interrogabili mediante una interfaccia Web molto avanzata, in grado di fornire sia all’utente occasionale sia al ricercatore avanzati strumenti di ricerca e di analisi testuale. Sono disponibili un ambiente di lettura diviso in un’area che contiene il sommario dell’opera (generato dinamicamente dal sistema) e una che contiene il testo selezionato. TIL, Testi Italiani in Linea, http://til.scu.uniromal.it/ Sono ammesse ricerche sui metadati, ricerche contestuali per ogni singolo testo e per collezioni e sottocollezioni, ricerche di termini, frasi o elementi testuali nel contesto di altri elementi esplicitati mediante la codifica XML/TEI, e ricerche KWIC, che consentono di generare le concordance in formato key word in context di termini o stringhe per un singolo testo. Molti testi presenti nella biblioteca digitale TIL, inoltre, sono corredati da una serie di materiali introduttivi e di contesto, che servono a fornire agli utenti nozioni di base relative alle opere archiviate. • • • • • • • • • • • • • • • • • • Bib. Dig. Per la storia dell’arte 1. Accademia della Crusca 2. ARTFL Project 3. Arthistoricum.net - Virtual Library for Art History 4. Athena 5. Gutenberg Bible 6. La Bibbia nel Cinquecento 7. Biblioteca Ambrosiana Digitale 8. Bibliotheca Augustana 9. La Biblioteca delle fonti storicoartistiche 10. Biblioteca digitale della Biblioteca Estense di Modena 11. Biblioteca digitale della Biblioteca Nazionale di Napoli 12. BIVIO - Biblioteca Virtuale OnLine 13. CEEC - Codices Electronici Ecclesiae Coloniensis 14. CEFAEL - Collections de l’Ecole française d’Athènes en ligne 15. CETH - The Center for Electronic Texts in the Humanities 16. Garos - Concordancia de Inscripciones griegas 17. Il Corpus informatico belloriano 18. Corpus Inscriptionum Latinarum 19. CSAI - Corpus of South Arabian Inscriptions 20. Digital Library for the Decorative Arts and Material Culture 21. The Digital Scriptorium 22. Efemeridi - Giuseppe Bencivenni Pelli 23. The Electronic Text Center at the University of Virginia 24. E-leo 25. Emblematica Online 26. Epigraphische Datenbank Heidelberg 27. La Fortuna visiva di Pompei 28. Galileo Digitale 29. Gallica - la bibliothèque numérique 30. Glascow Emblem Digitisation Project 31. Glossario dell’edilizia romana tra Rinascimento e Barocco 32. Internet Culturale 33. Internet Medieval Sourcebook • • • • • • • • • • • • • • • 34. IntraText Public Library 35. John Talman 36. Lineamenta 37. Memofonte 38. Monumenta Rariora 110 39. The Online Books Page 40. Online Medieval and Classical Library 41. Oxford-Google Digitization Project 42. Oxford Text Archive 43. Open Emblem Portal 44. Poeti d’Italia in lingua latina tra Medioevo e Rinascimento 45. The University of Chicago Library 46. Le Vite di Giorgio Vasari 47. II Vocabolario Toscano dell’Arte del Disegno