testi elettronici e banche dati testuali: problemi teorici e tecnologie
Transcript
testi elettronici e banche dati testuali: problemi teorici e tecnologie
T E S T I E L E T TRO N ICI E BA N CH E DAT I T E ST UA L I : PRO B L E M I TE O R ICI E T E C NO L OG IE Fabio Ciotti I N T RO D U Z I O N E Questo articolo si propone di fornire una introduzione ai problemi metodologici e tecnici sollevati dall'archiviazione elettronica dei testi e dalla realizzazione di banche dati testuali. È questo uno degli aspetti fondamentali dell'incontro tra tecnologie informatiche e studi umanistici, la cui diffusione avrà conseguenze profonde sul modo di (ri)produzione e diffusione dei testi, e sul modo di concepire le biblioteche: una vera e propria "svolta epistemica". Non è nostra intenzione affrontare una riflessione di carattere generale sulla portata di queste innovazioni; nondimeno, non ci si può esimere dal considerare le trasformazioni che esse determineranno sull'insieme delle pratiche sociali studiate dalla scienza letteraria, ed in particolare su quell'entità che nella nostra cultura designiamo con il termine di testo letterario. Dove per "testo letterario" intendiamo tutto il complesso di funzioni segniche che lo costituisce in quanto oggetto informazionale, a partire dal sostrato materiale che lo veicola. Anzi, è proprio quest'ultimo aspetto materiale che subisce una mutazione radicale, pari a quella dell'introduzione della stampa da parte di Gutenberg. L'oggetto "libro", che, nella cultura occidentale, per cinque secoli è stato il più importante medium con il quale è stato veicolato il sapere, con l'introduzione del supporto informatico, appare improvvisamente obsoleto, e destinato ad assumere un peso sempre minore nella trasmissione di informazioni e conoscenza. E lo stesso discorso si potrebbe fare per i canali di diffusione dei libri, le biblioteche e le librerie, che vanno ripensate alla luce delle innovazioni portate dai sistemi di trasmissione telematica delle informazioni. Naturalmente il passaggio del patrimonio testuale della nostra cultura verso questo nuovo medium propone una serie di problemi sia culturali che tecnologici. In primo luogo si pone il problema della salvaguarda di tutto il valore informativo dei testi tradizionali. In altri termini, nel memorizzare un testo su un supporto elettronico, operazione assai meno innocente di quanto non appaia a prima vista, come e fino a che punto è possibile mantenere questo valore informativo? Per non perdere ciò che non si è in grado di riprodurre immediatamente, occorre effettuare un processo di ri-codificazione delle fonti, processo che deve essere il più possibile conservativo. A questo primo ordine di problemi si aggiunge l'esigenza di garantire l'universalità dell'accesso ai nuovi supporti, che deve essere almeno pari a quella del libro. Nell'ambito informatico questa esigenza si traduce in quella della portabilità dei documenti informatici, ovvero la capacità di scambiare gli stessi tra sistemi operativi, software applicativi, hardware diversi. A questo fine diventa necessario individuare un codice standard per rappresentazione dei testi memorizzati che tenga conto delle esigenze scientifiche e che permetta la totale intercambiabilità dei testi tra la comunità scientifica, e la più generale comunità dei lettori: sarebbe assurdo infatti attuare un notevole sforzo umano ed economico per memorizzare un corpus di opere e magari farlo in modo che esso sia a disposizione di un solo dipartimento universitario. La creazione di banche dati testuali, ed in prospettiva di vere e proprie "biblioteche virtuali" (per usare il termine alla moda nel mondo della telematica), deve necessariamente misurarsi con questi problemi. Il presente lavoro d'altra parte, rappresenta il frutto, parziale, di una duplice esperienza sperimentale svolta dall'autore: in parte come collaboratore del laboratorio di ricerca su informatica e studi letterari istituito presso il Dipartimento di Italianistica dell'Università di Roma "La Sapienza"; in parte come responsabile scientifico del Progetto Manuzio, la prima banca dati di testi letterari italiani sulla rete Internet.1 In questo senso, le riflessioni che seguono rispondono ad un duplice intento: dare una giustificazione teorica alle scelte fatte, di volta in volta, per affrontare e risolvere i problemi pratici che si sono presentati nel corso della sperimentazione, e indicare le soluzioni che, allo stato attuale, sembrano le più adeguate. LA MEMORIZZAZIONE DEI TESTI: ALCUNI PROBLEMI TEORICI LA RAPPRESENTAZIONE ELETTRONICA DEI TESTI: CODIFICA E MODELLI Nella nostra cultura la quasi totalità dei testi (fino a questo momento) è costituita da testi veicolati da supporti cartacei di varia natura e forma. Per rendere disponibile questo patrimonio attraverso i sistemi elettronici di gestione dell'informazione è necessario dunque attuare una trasposizione esaustiva e fedele dei testi dal loro supporto originario al nuovo supporto elettronico. Secondo l'uso invalso nell'ambito degli studi di trattamento automatico dei testi useremo l'espressione inglese Machine Readable Form (abbreviato MRF) per indicare un testo archiviato su un qualsiasi supporto elettronico (dischi magnetici, CD-ROM, memoria RAM, etc.). Questa trasposizione, che chiamiamo memorizzazione informatica del testo, ben lungi dall'essere una mera riproduzione meccanica, presenta invece una natura complessa in cui sono implicati molteplici problemi teorici e pratici, occultati da un approccio tradizionale ai testi e da una concezione idealista del fatto letterario. Tale occultamento è dovuto alla apparente naturalità della lettura di una pagina scritta, che è un atto automatico effettuato dal lettore senza alcuno sforzo interpretativo cosciente. Tuttavia proprio questo automatismo della lettura cela una serie di meccanismi percettivi e significanti, che riguardano sia la natura della scrittura e della pagina tipografica, che i processi percettivi del cervello. Tutti gli studiosi che si sono misurati su queste tematiche, concordano sul fatto che il problema della memorizzazione elettronica del testo supera il semplice livello del trasferimento meccanico di sequenze grafiche in stringhe di caratteri: Si deve evitare di considerare il momento in cui il testo viene registrato, o per dirla alla moda, «catturato» come puramente meccanico. Un momento sul quale non è necessario riflettere più di tanto poiché si tratta di una fase secondaria e non rilevante. Si opera così un radicale rovesciamento nella concezione delle varie fasi che costituiscono il lavoro dello studioso.2 Il computer è una macchina che riceve, modifica e restituisce informazioni. Questa definizione generale e volutamente non tecnica, ci permette di evidenziare la somiglianza formale tra le attività ed i processi effettuati da un computer e il più generale insieme dei fenomeni comunicativi. Ci si accorge, così, che la memorizzazione di un testo non è solo, o non tanto una mera trasposizione meccanica, bensì un atto di trasmissione di informazioni, in prima istanza, verso un computer. Da questo punto di vista la memorizzazione del testo in MRF si può rappresentare come un processo comunicativo. Come tutti i processi 1 Naturalmente ai maestri, colleghi ed amici va il mio ringraziamento per i consigli e le proficue discussioni. 2 G. GIGLIOZZI, L'informatica e l'Italianistica. Una panoramica e qualche spunto teorico, in «Bollettino di Italianistica», V, 1987 (l993), pp. 1-15. Ma si vedano anche: G. GIGLIOZZI (a cura di), Studi di codifica e trattamento automatico dei testi, Roma, Bulzoni,1987, ed in particolare in questo volume T. ORLANDI, Informatica Umanistica. Riflessioni storiche e metodologiche, con due esempi, pp. 1-37; G. ADAMO, La codifica come rappresentazione. Trasmissione e trattamento dell'informazione nell'elaborazione automatica di dati in ambito umanistico, pp. 39-63; R. MORDENTI, Appunti per una semiotica della trascrizione nella procedura ecdotica computazionale, pp. 85-124. Altre utili indicazioni in T. ORLANDI, Informatica umanistica, Roma, La Nuova Italia Scientifica, 1990 G. GIGLIOZZI, Letteratura modelli e computer. Manuale teorico-pratico per l'applicazione dell'informatica al lavoro letterario, Roma, Editrice Universitaria di Roma-La Goliardica, 1993; G. ADAMO (a cura di), Trattamento edizione e stampa di testi con il calcolatore, Roma, Bulzoni, 1992; D. BUZZETTI - A. TABARRONI, Informatica e critica del testo: il caso di una tradizione fluida, in «Schede Umanistiche», Nuova Serie, 2, 1991, pp. 185-193; F. CIOTTI, Il testo elettronico: memorizzazione, codifica ed edizione informatica del testo, in C. LEONARDI - M. MORELLI - F. SANTI (a cura di), Macchine per leggere. Tradizioni e nuove tecnologie per comprendere i testi. Atti del convegno organizzato dalla "Fondazione Ezio Franceschini" e dalla "Fondazione IBM Italia", Firenze, 19 novembre 1993, Spoleto, Cisam-Fondazione E. Franceschini, 1994, pp. 213-230. comunicativi esso viene mediato da un dispositivo che rende possibile la comprensione tra i due attori del processo, ovvero da un codice: Se si vuole trasferire un testo (a stampa o manoscritto) sull'elaboratore per sottoporlo a trattamento automatico (o trasmissione) si deve cercare di compiere il trasferimento senza, o riducendo al minimo la perdita di informazione. Si deve cercare di rappresentare sull'elaboratore tutta l'informazione contenuta nel testo. Di qui nasce il problema della codifica.3 Il trasferimento del testo su supporto informatico propone dunque allo studioso alcuni quesiti teorici, oltre a numerosi problemi pratici: a partire dalla decisione (non innocua) su quale particolare edizione del testo si debba utilizzare come "fonte" della memorizzazione, fino all'individuazione delle varie tipologie di informazioni veicolate nel testo, delle modalità di rappresentazione informatica delle stesse e dei limiti da porre a tale operazione, per non cadere in regressi ad infinitum nell'analisi della realtà. Insomma, il problema della rappresentazione simbolica dell'oggetto di studio anche nella semplice creazione di una banca dati, sottende una scelta semiotica, come ha rilevato lo studioso francese Jean-Claude Gardin: ... il n'est pas de recherche documentaire informatisée sans analyse documentaire, pas de base de donneés sane un système sémiologique associé, plus o moin explicite, où soni définis les symbols qui servent à représenter les objects que ces processus et ces outils sont censées nous aider à brasser, dans les perspectives ouvertes par le traitament automatique de l'information.4 Naturalmente questa definizione semiologica sottende a sua volta una scelta epistemologica, ovvero la definizione di criteri di rilevanza e di correttezza che orientino la rappresentazione e ne garantiscano l'esaustività. Si pensi, a titolo di esempio, alla funzione che nel processo di produzione/fruizione testuale rivestono gli elementi non linguistici, ovvero la disposizione tipografica, i caratteri, l'impaginazione, lo stesso sostrato materiale cartaceo. Essi vanno considerati parte integrante del testo, o piuttosto sono elementi estranei e dunque passibili di essere tralasciati nella operazione di memorizzazione, qualsivoglia siano le modalità con le quali essa viene effettuata? Su un piano più generale, quando un testo viene trasposto su un supporto informatico, per studiarlo, per sottoporlo ad analisi di qualsiasi tipo, od anche solo per leggerlo, evidentemente la sua natura cambia in modo radicale: cosa ci garantisce che l'operazione è stata effettuata correttamente, che insomma si tratti proprio dello stesso testo? Come rileva acutamente ancora Gardin la via migliore è quella di rifuggire a tentazioni essenzialiste nella analisi dell'oggetto, assumendo una prospettiva pragmatica ed aperta: ... nous devons nous interroger sur le raisons qui nous conduisent à retenir une certain facon de «voir» nos objects entre mille autres possibles, c'est-à-dire d'en retenir certains aspects, constituants, attributs et d'en négliger d'autres, au nom de l'idée que nous nous faisons de la pertinence relative de chacun pour le gente de recherches que nous voulons servir.5 Occorre insomma assumere ed esplicitare a ragion veduta un determinato punto di vista che conduca alla formulazione di una certa rappresentazione, che potremo chiamare un modello, del nostro oggetto di studio pragmaticamente utile. D'altra parte, anche dal punto di vista dell'informatica, il problema della rappresentazione dei dati è uno dei nodi cruciali, poiché il computer pone dei vincoli formali assai stretti alla stessa rappresentazione, con i quali occorre confrontare la realtà che si intende rappresentare. Tutto ciò che può essere espresso sia in termini di dati che di operazioni di trasformazione su quei dati all'interno del computer deve basarsi su questi rigidi vincoli formali, ovvero deve poter essere trasformato attraverso un numero finito di passi in una sequenza di numeri binari esprimenti dati ed istruzioni, codificate numericamente, del linguaggio macchina. 3 D. BUZZETTI - A. TABARRONI, Informatica e critica del testo, cit., p. 186. 4 J.C. GARDIN, Le calcul et la raison. Essai sur la formalisation du discours savant, Paris, Édition de l'École des Hautes Études en Science Sociale, 1991, p. 60. 5 J.C. GARDIN, Le calcul et la raison, cit., p. 60. Nell'elaborazione automatica ha un ruolo molto importante la rappresentazione delle informazioni. Dato che un calcolatore "capisce" solamente i valori binari, bisogna "tradurre" in opportune configurazioni di valori binari qualsiasi tipo di informazione che si voglia elaborare: le informazioni devono essere codificate. Il codice, cioè l'insieme delle regole di corrispondenza fra le informazioni e la loro rappresentazione binaria, è frutto di convenzione, ma non può essere del tutto arbitrario: deve essere stabilito in modo che le manipolazioni che il calcolatore può effettuare sulle rappresentazioni corrispondano alle operazioni che si vuole effettuare sulle informazioni.6 Non casualmente in ambito informatico sono stati sviluppati una vasta congerie di strumenti per la modellizzazione di oggetti e processi, e il concetto di modello riveste una importanza centrale sia nello sviluppo della teoria dell'informatica, che nella progettazione di sistemi informativi veri e propri. Le riflessioni svolte finora ci consentono riassumere nei seguenti punti i nodi teorici e pratici implicati da questa modellizzazione informatica del testo: 1) individuare correttamente ed esaustivamente i dati pertinenti della fonte, ovvero tutti gli elementi significanti del testo, anche quelli che ad una lettura "normale" non vengono considerati rilevanti perché immersi nella sfera dell'inconsapevole e del non cosciente; 2) progettare un sistema di codifica dei dati che si adatti alla natura fisica del canale e del destinatario, e che permetta di rappresentare nel passaggio dalla forma stampata alla forma elettronica tutte le informazioni significanti. Il primo punto rimanda al problema della definizione chiara e strutturata degli elementi che costituiscono un oggetto (nel nostro caso il testo), ad un determinato livello, e delle relazioni tra questi elementi. La formulazione di un modello, come visto, comporta la determinazione di un punto di vista a partire dal quale effettuare la selezione degli elementi pertinenti che si intende rappresentare, ovvero la scelta del livello al quale si intende descrivere il testo stesso. La codifica elettronica da parte dello studioso sarà dunque orientata pragmaticamente dalle esigenze poste dalla ricerca. Nel seguente paragrafo faremo una breve ricognizione su questo tema. Il secondo punto comporta la scelta o la progettazione di un linguaggio descrittivo dell'oggetto, che sia o il codice binario, o una trasformazione definita del codice binario, poiché il computer è in grado di comprendere solo tale famiglia di linguaggi. I modelli che vengono utilizzati in informatica, infatti, devono rispettare le limitazioni sintattiche che vengono imposte dal medium digitale. Ci occuperemo di questo aspetto nella seconda parte di questo articolo, indicando una possibile risposta che le tecnologie informatiche mettono a disposizione per le esigenze dell'informatica umanistica. TESTO, PARATESTO E DOCUMENTO: ELEMENTI PER UNA EDIZIONE ELETTRONICA La rappresentazione/codifica di un testo nella memoria del computer, effettuata secondo criteri scientifici, implica la elaborazione di uno o più modelli descrittivi di tale testo, che dovranno poi essere implementati in un linguaggio comprensibile alla macchina (dove comprensibile sta per processabile). Finora abbiamo usato la nozione di testo in modo acritico, come designante una certa entità informativa, che rappresenta la fonte dell'informazione nel processo di memorizzazione. Questa indeterminatezza va dunque risolta. Occorre stabilire con precisione cosa si intende con testo, quali elementi e quali strutture sono rilevanti al fine di darne una corretta rappresentazione informatica. Naturalmente non è questo il luogo per affrontare esaustivamente tutti gli aspetti di questa analisi: le ricerche ipotizzabili su un testo sono infatti innumerevoli e ricoprono ambiti tematici che vanno dalla critica testuale, all'analisi stilistica, fino alla modellizzazione delle strutture narrative o delle strutture tematiche. Il nostro interesse in questa sede si rivolgerà alle modalità di realizzazione di una edizione elettronica del testo. Il termine "testo", come tutti i termini di uso comune nella lingua quotidiana e nella lingue specialistiche di alcune discipline, presenta molteplici significati. Una buona strada per iniziare la nostra analisi potrebbe essere quella etimologica: "testo" proviene dal latino textus, un deverbale che deriva a sua 6 G. AUSIELLO ET AL., Modelli e linguaggi dell'informatica, Milano, McGraw-Hill Italia, 1991, p. 22. volta dall'uso metaforico del participio passato di temere, che significava "tessere" la tela, e dunque "intrecciare" e "connettere" i fili.7 Questa tradizione viene ereditata dalle lingue occidentali moderne in forme fonologicamente molto simili: testo in italiano e spagnolo, text, in francese, ma anche in tedesco ed inglese. Evidentemente la metafora, attestata per la prima volta nell'opera del grammatico e retore tardo-latino Quintiliano, voleva connotare l'intreccio di rapporti (semantici) che le parole del testo instaurano tra loro, similmente alla trama di un tessuto. Da questo punto di vista con testo si intende dunque una sequenza coerente di unità di una lingua, prodotto di una enunciazione del linguaggio verbale, ovvero un discorso. Al significato originario della parola testo si sono però aggiunte altre accezioni per trasposizione metonimica, che si riferiscono estensionalmente al supporto materiale (libro o manoscritto), o alla sequenza di segni di scrittura, ovvero iscrizioni. Questa plurivalenza del campo semantico del termine, che è attestata sia nel linguaggio comune che nel linguaggio specialistico degli esperti e degli studiosi dei testi per eccellenza, i letterati ed i filologi,8 ha salde radici pragmatiche: di fatto ogni volta che si viene a contatto con un testo verbale ciò avviene attraverso la mediazione di tracce inscritte su un supporto materiale dotato di talune caratteristiche che, in un certo senso "veicola" il testo. La definizione del concetto di testo, dunque, si presenta meno "semplice" di quanto non appaia ad un approccio orientato esclusivamente al livello linguistico. Si dimentica il fatto che «in un testo si sovrappongono, quasi si stratificano significanti e significati», come rileva Segre, che il testo intanto è un enunciato del linguaggio verbale in quanto esso si manifesta attraverso la realizzazione fisica di una sequenza di caratteri. Quando parliamo di elementi del testo, possiamo alludere tanto a elementi del significante, quanto ad elementi del significato. Va ribadito che i secondi sono impliciti, e come sviluppati dai primi. Qualunque analisi del testo deve dunque avere il punto di partenza nel fatto che il testo è costituito da una successione di significanti grafici, o monemi, formati da gruppi di grafemi. È questa successione, immutabile se si prescinde dai guasti della tradizione, che sviluppa poi, nell'atto della lettura, i significati.9 Se dunque il testo, in un senso è ciò che permane, l'invariante, in ogni operazione di riproduzione materiale della sequenza di simboli grafici, il contatto tra il testo inteso in questo senso astratto, ed il fruitore, viene reso possibile dall'esistenza di un oggetto sensibilmente concreto (ovvero capace di attivare uno dei canali recettivi dell'uomo verso stimoli esterni), che costituisce il supporto materiale, stabile e riproducibile dell'informazione testuale: definiamo questo supporto un documento. Ci troviamo di fronte, quindi, ad una serie di mediazioni materiali che ci permettono di attingere il testo nella sua forma di sequenza di segni verbali, ma che ci legano inderogabilmente ad un singolo oggetto, composto da carta, tracce di inchiostro, cartone o pelle, se il volume è dotato di copertina. Quando si traspone un testo in MRF, l'operazione che si attua, a rigore, è la memorizzazione del testo per come esso appare in quel particolare libro singolo, esemplare di una determinata edizione di un determinato o indeterminato manoscritto che sopportava quella che l'autore, in un dato momento del suo periodo creativo, considerava una redazione definitiva dell'opera. Questo imprenscindibile legame oggettivo propone una serie di problemi a cui abbiamo già fatto cenno in apertura: un documento non è solo testo, e nella sua costituzione intervengono altri fattori di 7 Cfr. C. SEGRE, Avviamento all'analisi del testo letterario, Torino, Einaudi, 1985 pp. 360-362; ed anche il Dizionario della lingua latina. Latino-italiano di Calonghi edito da Rosenberg & Sellier ai lemmi corrispondenti. L'accezione metaforica riferita alla "trama verbale" di un discorso, alla sua "composizione", simile alla trama (altra metafora tessile in campo letterario!) di un tessuto, è piuttosto tarda, poiché risale a Quintiliano e precisamente in Istitutio oratoriae, IX, 4, 13. Si veda C. SEGRE, Avviamento all'analisi del testo letterario, cit., p. 362: «Sin dal medioevo, del resto, il concetto di testo oscilla tra il livello segnico (ciò che sta scritto in un'opera) e quello dell'attuazione materiale, così che textus viene ad indicare il codice in cui il testo è trascritto, o persino la sua scrittura (textus quadratus, semiquadratus, ecc.; testo pergamenaceo, cartaceo; testo manoscritto o a stampa). Una oscillazione mantenuta nella filologia umanistica e in quella moderna, che parlano degli esemplari di un'opera come di suoi testi». 8 9 C. SEGRE, Avviamento all'analisi del testo letterario, cit., p. 45. carattere materiale, fisico, economico, merceologico ed anche semiotica. La fruizione del testo, mediata dal documento, non si può descrivere esclusivamente come un astratto processo comunicativo tra autore-emittente e lettore-destinatario. Su questo asse virtuale si interpongono un complesso di pratiche materiali e semiotiche che sul testo intervengono, in base a codici e a regole, e che producono quella entità che abbiamo definito documento. Tutta questa serie di informazioni, che nell'atto di lettura agiscono prevalentemente a livello inconsapevole, contribuiscono attivamente ad orientare la lettura, focalizzando l'attenzione del lettore, indirizzando il flusso di lettura, scandendo le divisioni semantiche del testo. L'autorevole semiologo e studioso di letteratura Gerard Genette ha dedicato un lungo ed interessante saggio a tutte quelle pratiche discorsive, iconiche e materiali che non sono il testo in senso stretto, ma che lo accompagnano, sia spazialmente che cronologicamente, nel contatto con il fruitore, definendole con il termine di paratesto.10 La relazione tra testo e paratesto, secondo Genette, non può essere vista come semplice contiguità spaziale poiché «è attraverso il paratesto dunque, che il testo diventa libro e in quanto tale si propone ai suoi lettori». Egli nell'ambito del paratesto assegna uno statuto particolare a tutto ciò che accompagna materialmente il testo: Un elemento del paratesto se costituito da un messaggio materializzato, ha necessariamente un'ubicazione, che si può situare in relazione a quella del testo stesso: intorno al testo, nello spazio del volume stesso, come il titolo o la prefazione, e qualche volta inserito negli interstizi del testo, come i titoli dei capitoli o certe note; chiamerò peritesto questa prima categoria spaziale.11 Gli elementi del peritesto possono essere scritture (quali gli intertitoli, le epigrafi, i commenti) oppure pratiche esclusivamente visuali (composizione tipografica, impaginazione), ed a loro volta si possono distinguere in interventi autoriali, quando è l'autore del testo che ne assume le responsabilità, o interventi editoriali se è l'editore ed il grafico ad operare le scelte. La funzione semiotica degli elementi non verbali della pagina stampata, della quale si è persa consapevolezza solo con l'inizio delle produzione massificata di libri e riviste a partire dalla fine del secolo scorso, viene attestata dalla storia della stampa tipografica e dalla funzione culturale svolta dalle stamperie nel corso del primo secolo di storia del libro. Ogni tipografo di fama caratterizzava i suoi libri attraverso l'uso di un certo carattere tipografico, che veniva disegnato appositamente. Anche il formato del foglio e la qualità della carta costituiva una caratteristica codificata da regole precise, che associavano ciascun formato alla valutazione del valore o della serietà del contenuto di un opera. Esiste peraltro una tradizione secolare, che nasce nel periodo alessandrino e giunge attraverso i carmina intexta medievali, i carmina figurata barocchi, alle avanguardie letterarie del nostro secolo, che attesta come molti autori hanno avuto presenti le possibilità estetiche che derivano da una semantizzazione degli elementi non-verbali di un testo scritto. Si pensi alla rilevanza che ha questo ambito di problemi nella redazione dei testi poetici, e alla tematizzazione esplicita che di ciò le avanguardie del nostro secolo hanno fatto, a partire dal Coup de dés di Mallarmé, fino alle più recenti esperienze di poesia visiva e concreta. Ma anche nella storia del romanzo vi sono esempi di consapevolezza del ruolo della disposizione tipografica e topografica del segno grafico nella pagina bianca, come il Pantagruel di Rabelais, il Tristram Shandy di Sterne, Alice nel paese delle meraviglie di Lewis Carrol. Il rapporto tra testo e paratesto appare dunque molto più complesso di quanto non sembri in prima istanza. Ogni scelta fatta nell'edizione risponde a pratiche codificate che possono essere veicolo sia di aspetti semantici denotativi che di connotazioni complesse, legate alla funzione sociale e dunque storicamente determinata del documento in questione. Si pensi, ad esempio, alla divisione in parti di un testo, parti che possono essere capitoli, paragrafi, capoversi, o ancora canti, parti. Queste informazioni, che sono percepite come caratteristiche del testo, vengono veicolate esclusivamente da elementi peritestuali (impaginazione, modificazione dei caratteri, spaziature, etc.): la semplice compitazione dei caratteri, o la semplice interpretazione del tessuto verbale del testo non ci consentirebbe (se non in rari casi) di percepire tali partizioni, poiché la struttura semantica o narrativa profonda non sempre coincide con le sua partizioni 10 G GENETTE, Soglie. I dintorni del testo, trad. it. Torino, Einaudi, 1989. 11 G GENETTE, Soglie, cit. p. 6. 11 G. GENETTE, Soglie, op. cit. p.6. di superficie, come si può verificare ascoltando un testo recitato. La duplice natura di queste strutture è legata al fatto che, storicamente, questo è un caso in cui il paratesto non si è semplicemente affiancato al testo, ma ha agito profondamente sul modo di produrre e di fruire dei testi. Basti pensare che l'abitudine di suddividere il testo in capoversi è sorta solo dopo l'avvento della stampa per motivi esogeni, e solo successivamente queste micro-partizioni sono state introiettate e concepite come elementi strutturali di un testo. Lo stesso si può rilevare per l'uso degli intertitoli.12 Questa breve discussione, in conclusione, mostra la complessa intersezione di codici e strutture soggiacenti al nesso che si instaura tra testo e documento. Inevitabilmente tale viluppo si ripercuote nella determinazione dei criteri che occorre adottare quando ci si appresta a trasferire il testo in MRF. Anche un progetto "minimale" di ricerca, quale la realizzazione di una edizione elettronica di un testo, pone dunque problemi di rappresentazione piuttosto complessi. Si rende necessaria infatti la traduzione sia dello schema notazionale della scrittura (attraverso la correlazione tra ogni carattere e una sequenza ordinata di simboli binari), che la modellizzazione, mediante un adeguato linguaggio informatico, dell'organizzazione del testo e dei suoi elementi paratestuali, che hanno una funzione di estrema importanza nella singolarizzazione del testo, e nella individuazione dei suoi confini e della sua struttura. T E C N O L O G I E E L I N G UA G G I P E R L ' E D I Z I O N E E L E T T R O N I C A D E I T E S T I LE TECNOLOGIE INFORMATICHE PER LA DIGITALIZZAZIONE DEI TESTI L'informatica è nata, e si è evoluta per lungo tempo, quasi esclusivamente in ambito scientifico (nel senso stretto) e gestionale. Solamente i progressi degli ultimi anni hanno reso possibile la diffusione di tecnologie hardware e software in grado di rispondere alle esigenze sollevate da applicazioni in ambito umanistico, ed a costi non proibitivi. In particolare, si è assistito ad un notevole sviluppo nel settore della immissione, rappresentazione e trattamento dei documenti testuali (sulla spinta della cosiddetta office automation ed alla evoluzione rapidissima della computer-graphic, ovvero del trattamento informatico delle immagini. Tutte le macchine che vengono denotate attualmente dai termini "computer", "calcolatore", "elaboratore elettronico", sono organizzate secondo un medesimo schema, una medesima architettura, basata sul modello di macchina astratta denominato macchina di Von Neumann (dal nome del grande matematico che ne è stata l'autore agli inizi degli anni cinquanta). Tale architettura è composta dalle seguenti parti: una o più unità, o "periferiche", di ingresso (input) dei dati; una unità centrale di calcolo; una memoria di massa; uno o più unità di uscita (output) dei dati. Le unità di input/output hanno la funzione di istituire il contatto comunicativo con gli agenti esterni (uomo o altre macchine), e dunque sono le interfacce tra elaboratore e mondo esterno. Le unità di input, in particolare, svolgono la funzione di ricevere le informazioni dall'esterno e di codificarle in una struttura fisica e formale adeguata alle esigenze elaborative dell'unità centrale. In sostanza, poiché l'unità centrale di un elaboratore è in grado, in ultima analisi, di "comprendere" e manipolare solo i due simboli della notazione numerica binaria, le unità di input hanno la funzione di digitalizzare i dati in ingresso secondo una codifica binaria. L'unica unità di input per la digitalizzazione di testi è stata, per molti anni, la tastiera di consolle. Attualmente esistono una serie di strumenti che consentono l'immissione di notevoli quantità di dati testuali e la loro successiva riproduzione su supporti informatici in grado di contenere enormi quantità di dati. La tecnologia di gran lunga più efficiente a disposizione dei "copisti elettronici", almeno per testi stampati in epoche non anteriori al secolo scorso, è l'accoppiamento di un dispositivo di input denominato scanner con un software OCR (Optical Character Recognition). Il primo funziona tecnicamente in maniera simile ad una fotocopiatrice, ma produce una immagine digitale facsimile della pagina cartacea di origine, Cfr. G. GENETTE, Soglie, cit. p. 290 e segg. Una corretta memorizzazione di questi elementi peritestuali potrebbe rappresentare una valida base per approfondire lo studio di una zona del testo che solo da pochi anni sta ricevendo l'attenzione di alcuni studiosi, malgrado l'importanza che essa riveste, almeno nel rapporto che ogni lettore "comune" stabilisce con il testo. Una ricerca estesa ad un corpus di testi potrebbe portare alla definizione di una vera e propria "semiotica delle strutture tipografiche", nel senso dello studio del ruolo che la costituzione tipografica del testo materialmente inteso ha nel processo di interpretazione del macro-enunciato in esso veicolato e nella individuazione di una semantica degli elementi tipografici ed iconici. 12 ottenuta sovrapponendo una griglia virtuale fittissima alla superficie riprodotta, ed attribuendo valori numerici ai toni di luce o di colore rilevati in ciascuna cella. Gli OCR invece sono dei complicati programmi in grado di interpretare l'output dello scanner e di individuare i caratteri alfanumerici contenuti nell'immagine elettronica della pagina. Naturalmente il risultato di questo trattamento, anche nel caso di strumenti di alto livello, non è completamente affidabile, e necessita di accurate revisioni (la fase più dolorosa e costosa della memorizzazione di un testo). Esistono anche dei dispositivi in grado di digitalizzare automaticamente microfilm o negativi fotografici, molto utili per la creazione di archivi di immagini digitali di testi manoscritti o di incunaboli. Tuttavia bisogna ricordare che le tecnologie di riconoscimento automatico dei caratteri attualmente disponibili non sono in grado di confrontarsi, con risultati soddisfacenti, con questo tipo di sorgenti, o lo sono in misura molto limitata. Anche per quanto attiene ai supporti elettronici digitali, e dunque dei canali di diffusione dei testi in MRF, sono disponibili oggi strumenti dalle notevoli capacità come i supporti ottici, o CD-ROM, che possono contenere fino a 670 milioni di caratteri in un disco di dieci centimetri di diametro. Ma indubbiamente il fatto che potrà determinare un forte impulso alla produzione di archivi testuali digitali è la diffusione delle reti telematiche, ed in particolare delle rete Internet, che, almeno in ambito accademico, permettono di creare archivi e basi dati testuali con costi di gestione e di diffusione molto bassi, o quasi nulli. Ma a questo tema è dedicato l'ultimo capitolo del presente lavoro. IL GRADO ZERO DELLA RAPPRESENTAZIONE INFORMATICA DEI TESTI: LA TAVOLE DEI CARATTERI Fino alla fine degli anni cinquanta la comunicazione tra operatore umano ed elaboratore richiedeva generalmente l'immissione di dati e istruzioni direttamente in codice binario, cosa che non creava grandi difficoltà per i tipici problemi di calcolo in cui erano impiegati. Ma poiché i computer non sono solo calcolatori numerici, ma macchine universali in grado di manipolare simboli secondo regole per realizzare algoritmi (non necessariamente interpretabili semanticamente come calcoli numerici), è sorta l'esigenza di rappresentare in maniera più efficiente ed amichevole (per gli esseri umani, ovviamente) nella memoria degli elaboratori segni come quelli delle notazioni alfabetiche. Le macchine informatiche possono manipolare solo i due simboli della notazione numerica binaria, ma possono ripeterli in sequenze grandi quanto si vuole. Per rappresentare caratteri basta dunque definire una corrispondenza biunivoca, che associ il repertorio ordinato di simboli dello schema notazionale di un determinato sistema di scrittura (un charachter set) ad una sequenza di codici numerici implementati a livello macchina in notazione binaria (un code set). Tale tavola di corrispondenza viene chiamata Coded Charachter Set, insieme ordinato di caratteri codificati (numericamente). Nel corso degli anni, parallelamente allo sviluppo ed alla diffusione dell'informatica, sono state elaborate numerose tavole di caratteri, basate su sequenze binarie di diversa lunghezza. La più nota e diffusa tra queste è senza dubbio l'American Standard Code for Information Interchange (ASCII). Quest'ultimo è il codice standard più diffuso tra le piattaforme hardware di tipo personal computer, e deve la sua fortuna alla opzione nei suoi confronti fatta dalla maggior parte dei produttori. Il codice ASCII vero e proprio consente di rappresentare 128 simboli, essendo formato da sequenze binarie di 7 bit (binary digit, cifre binarie). Naturalmente (per ovvi motivi storici e commerciali) questo codice ha un charachter set basato sull'alfabeto delle lingue anglosassoni, insieme ai più diffusi segni diacritici, e dunque non contiene moltissimi caratteri usati dagli alfabeti latini e nordici (per non parlare degli alfabeti non latini). I computer attuali tuttavia, consentono di utilizzare sequenze superiori alle sette cifre binarie per la rappresentazione elettronica dell'informazione, e dunque la sequenza base è stata incrementata di un elemento, portando le possibili disposizioni a 256. Però le nuove posizioni sono state "riempite" in maniera diversificata dai vari produttori, determinando il proliferare di una famiglia di "pagine dei codici" derivate dall'originale ASCII a 7 bit, ciascuna delle quali adattate ai vari alfabeti nazionali. Questa proliferazione comporta una seria limitazione alla portabilità dei dati memorizzati tra ambienti software ed hardware diversi, poiché le diverse pagine di codici associano le stesse sequenze binarie a caratteri o simboli diversi. Per citare un esempio abbastanza comune, poiché si riferisce alle piattaforme personal attualmente più diffuse, vi sono differenze tra la tavola di caratteri usata in ambiente DOS e quella usata in ambiente Windows: questo significa che un file di testo viene visto in maniera diversa da due ambienti software che girano sulla stessa macchina. Per contrastare questa esplosione babelica di code sets, sono state definite alcune tavole standard da parte della International Standardization Organization (ISO), tra le quali la più universale è quella denominata ISO 646:1083 IRV, ricalcata a sua volta sullo standard internazionale di fatto, il codice ASCII a 7 bit.13 Attualmente è in fase di definizione in sede ISO un nuovo code set a 16 bit, denominato Unicode. La potenzialità espressiva di questo codice (65536 posizioni disponibili) permetterà di rappresentare pressoché tutti gli alfabeti delle lingue umane più diffuse. Tuttavia prima che il sistema Unicode possa diffondersi ed essere integrato in tutte gli ambienti operativi standard occorreranno alcuni anni. Fino ad allora l'unico code set in grado di garantire la massima portabilità rimarrà ancora il vecchio e limitato codice ASCII. LINGUAGGI EVOLUTI PER LA CODIFICA DEI TESTI La codifica del testo basata sulle sole tavole dei codici, insieme ai limiti di portabilità e compatibilità, comporta una ulteriore restrizione, di natura teorica: essa consente di rappresentare correttamente nella memoria del computer solo la sequenza ordinata dei grafemi che costituiscono il testo, per i quali è possibile reperire un corrispettivo nel set standard utilizzato dalla macchina. Ma un testo a stampa o un manoscritto, come abbiamo visto sopra, contiene una serie di informazioni che vanno oltre alla mera sequenza di caratteri costituente il testo stesso. Tali informazioni, veicolate da caratteristiche grafiche, servono a determinare la struttura astratta del testo e ad individuare materialmente tali partizioni. Per non parlare della rappresentazione del documento testuale, inteso come insieme di pratiche visuali ed iconiche, e che possono risultare di notevole interesse per talune ricerche, nonché come base per il lavoro di edizione scientifica del testo stesso. Occorre dunque individuare delle adeguate metodologie informatiche per rappresentare quanto più esaustivamente questi fenomeni, ovvero, per implementare adeguati modelli informatici della realtà testuale e documentaria/iconica del testo. La diffusione dei personal computer e le esigenze di elaborazione e formattazione dei testi in formato elettronico ha portato allo sviluppo di molteplici sistemi orientati alla creazione e manipolazione di testi, che vanno dai word-processors ai più sofisticati sistemi di desktop-publishing (che consentono di controllare tutto il processo di produzione, composizione e formattazione dei testi ai fini editoriali). Dal punto di vista strettamente informatico i sistemi di text-processing si possono dividere in due classi, che corrispondono a due diverse impostazioni ingegneristiche: 1) sistemi di tipo WYSIWIG (What You See Is What You Get) con formato proprietario; 2) sistemi basati su markup language. I sistemi di tipo WYSIWYG con formato proprietario fondono le potenzialità del trattamento dei testi con le capacità grafiche raggiunte dalle attuali strumentazioni hardware e dagli ambienti con interfacce grafiche (come il noto Windows, il Macintosh OS, la Workplace Shell OS/2, o X-windows su Unix). La differenza essenziale dal punto di vista della struttura informatica dei dati è costituita dal fatto che quasi tutti i sistemi di scrittura ed impaginazione WYSIWYG utilizzano, ai fini della rappresentazione del testo, dei caratteri di controllo invisibili (in genere i primi trentadue delle tavole dei codici standard), immessi dentro il file di testo, che rendono il file leggibile esclusivamente dal sistema da cui è stato generato, e limitandone completamente la portabilità. I sistemi di questo tipo, su cui si basano la maggior parte dei word-processor commerciali non sono dunque adatti alla codifica scientifica di un testo. I markup language, invece, si basano su un insieme di istruzioni facente parte di un vero e proprio linguaggio (nel senso informatico) orientato alla descrizione dei fenomeni di strutturazione, composizione o impaginazione del testo. I comandi sono costituiti da sequenze di caratteri ASCII visibili,14 e vengono In realtà il codice ASCII standard differisce dall'ISO 646 per un carattere' il simbolo del dollaro ($), che nello standard ISO è rimpiazzato dal segno di currency. 13 Il codice ASCII riserva le prime trentadue posizioni per codificare caratteri di controllo non visibili a video o su stampata, che vengono interpretati dal computer come istruzioni o comandi (ad esempio il carattere di inizio file, o di fine riga). Naturalmente ogni sistema operativo o software interpreta questi caratteri in maniera diversa. Solo le successive posizioni codificano i caratteri visibili. 14 immessi dentro il file del testo secondo un determinata sintassi, immediatamente accanto alla sequenza di caratteri a cui si riferiscono. L'idea di markup per il testo elettronico deriva dai simboli che autori e grafici utilizzano, nella stampa tradizionale, per indicare al compositore ed al tipografo come trattare dal punto di vista grafico il testo, in relazione alle diverse funzioni testuali svolte da ciascuna sezione del testo stesso. Si possono distinguere due classi di linguaggi di markup che differiscono per la tipologia, ovvero per la semantica delle istruzioni utilizzate: 1) markup specifico; 2) markup generico. Il primo tipo (i cui testimoni più illustri sono linguaggi come lo Script, il TROFF, il TEX) consiste di un insieme di istruzioni operative che indicano "localmente" la struttura tipografica e compositiva della pagina (il lay-out), le spaziature, l'interlineatura, le caratteristiche dei font, modificando questi parametri direttamente per le porzioni di testo a cui si riferiscono. Questo tipo di marcatura è detta anche markup procedurale, in quanto indica alla macchina le procedure di trattamento cui deve sottoporre la sequenza di caratteri al momento della stampa Evidentemente un linguaggio di codifica procedurale comporta uno stretto legame con il software di trattamento del testo che è in grado di interpretarlo, e dunque limita la portabilità del testo codificato tra ambienti diversi, e peraltro non è facilmente interpretabile da un "lettore umano". Inoltre, le istruzioni di formattazione di un testo di i questo tipo sono fissate una volta per tutte: se si intende modificare l'aspetto stampato del testo occorre modificare tutte le istruzioni di codifica. Ma, oltre a questi limiti di carattere pratico, il markup procedurale ne presenta anche uno sostanziale. Infatti in un documento testuale la composizione o aspetto fisico del manufatto rappresenta una realizzazione di una struttura astratta del testo verbale, che costituisce un bagaglio informativo essenziale per comprendere correttamente lo stesso testo. Si pensi alla importanza della divisioni di un testo in sezioni o capitoli che organizzano il discorso testuale ed indicano al lettore il ritmo della lettura. In una codifica procedurale questa informazione non viene rappresentata in quanto tale, e dunque è necessario, per accedervi, conoscere esattamente come è stata composta tipograficamente. I linguaggi basati su un generic markup sono costituiti da un insieme di marcatori (tags), che, immessi nel testo, indicano non le caratteristiche fisiche, ma la funzione assolta dal blocco di testo cui si riferiscono. A ciascun blocco viene associato un marcatore che lo definisce come titolo, paragrafo, nota, citazione, etc., senza preoccuparsi di come tali elementi del testo appariranno fisicamente. In sostanza la descrizione fornita da un generic markup language codifica la struttura di un testo e non l'aspetto di un documento. Poiché permettono di dichiarare a quale tipo di struttura appartiene una certa porzione del testo, questi linguaggi vengono anche definiti markup dichiarativi. LO STANDARD GENERALIZED MARKUP LANGUAGE Tra i linguaggi che si iscrivono nel paradigma della codifica dichiarativa ha assunto una particolare importanza lo Standard Generalized markup Language, sviluppato da Charles Goldfarb, che è diventato lo standard ISO ufficiale per la creazione di testi in MRF.15 Lo SGML si basa su un sistema di codifica dichiarativa. Esso, infatti, consente la definizione di un insieme di marcatori che descrivono la struttura logica di un testo piuttosto che la sua forma grafica. Tale Il testo ufficiale dello standard ISO, commentato dallo stesso inventore del linguaggio, è nel capitale C.F. GOLDFARB, The SGML Handbook, Oxford, Oxford University Press, 1990. Manuali introduttivi di buon livello sono: E. VAN HERWIJNEN, Practical SGML, Boston/Dordrecht/London, Kluwer Academic Publishers, 1994 2; M. BRYAN, SGML: An Author's Guide to the Standard Generalized Markup Language, Wokingham/Reading/New York, Addison-Wesley, 1988. Una breve introduzione per le applicazioni in ambito umanistico è L. BURNARD, What is SGML and How Does it. Help?, in GREENSTEIN (a cura di), Modelling Historical Data: Towards a Standard for Encoding and Exchanging Machine-Readable Texts, St. Katharinen, Max-Planck-Institut fur Geschichte, 1991 (Halbgrane Reihe zur Historischen Fachinformatik, Serie A, Historische Quellenkunden), pp. 65-79. Moltissime informazioni, materiali e saggi su SGML sono naturalmente reperibili su Internet. Non è possibile qui dare un elenco completo dei siti dedicati, ma sicuramente il più completo è la SGML Web Page di Robin Cover, disponibile su WWW all'indirizzo http://www.sil.org/sgml. 15 insieme individua una classe di documenti testuali che presentano le medesime caratteristiche strutturali. Questa astrazione costituisce il nucleo e la potenza del linguaggio: grazie ad essa lo SGML diventa, più che un linguaggio, un metalinguaggio che provvede le regole per costruire infiniti linguaggi di codifica di testi. Ciascuno di questi corrisponde ad un modello di testo o di un insieme di testi, realizzato in base ad un dato punto di vista, o interesse specifico di trattamento. La struttura astratta del testo nello SGML viene specificata definendo gli elementi che la costituiscono e le relazioni che tra loro intercorrono, ed attribuendo ad ogni elemento un singolo marcatore, in una tabella denominata Document Type Definition (DTD). Il concetto di Document Type Definition è il cuore dello SGML. Lo standard non fornisce alcuna prescrizione riguardo la tipologia, la quantità e il nome dei marcatori, ma esclusivamente precise regole sintattiche su come definire un insieme di marcatori all'interno di una DTD: attraverso queste regole formali, è possibile definire un linguaggio di codifica adeguato per un certa classe di documenti e rispondente ad esigenze particolari di rappresentazione. La portabilità ed universalità della codifica è garantita dalla diffusione della DTD insieme al testo stesso. Al fine di garantire la massima portabilità dei testi, lo SGML permette di codificare testi e marcatori usando esclusivamente il set di caratteri ISO 646, e fornisce una particolare sintassi per definire sequenze di caratteri, le entità, che univocamente rappresentano i caratteri non contenuti nel code set. Nella Document Type Definition, dunque, sono elencati e definiti tutti i termini che costituiscono un linguaggio di codifica coerente, e le relazioni tra essi: 1) i marcatori per gli elementi strutturali e funzionali (elements) permessi nei testi di una certa classe con i loro nomi; 2) il contenuto di ciascun elemento (content model), ovvero quali altri elementi possono apparire all'interno di un certo elemento, con quale ordine e con quale frequenza; 3) i marcatori per gli attributi (attributes) che possono essere assegnati a ogni elemento; 4) i simboli per le entità (entity) che possono occorrere come contenuto del documento e che possono rappresentare dai caratteri che non esistono nella dotazione del code set prescelto per la codifica, fino ad interi file (ad esempio possono riferirsi a file grafici, la cui notazione informatica è evidentemente diversa da quella del file di testo). È possibile codificare un testo sia facendo riferimento ad una DTD già esistente e pubblicamente disponibile, sia sviluppando nuove DTD atte a descrivere ogni tipo di documento. In entrambi i casi occorre avere un certa conoscenza della sintassi e delle regole che lo SGML prescrive per la descrizione della struttura del documento testuale. Essa si basa sull'idea che un documento ha una organizzazione astratta descrivibile attraverso una struttura gerarchica. Tale struttura astratta del documento, corrisponde ad un grafo ad albero in cui: 1) a ciascun nodo corrisponde un elemento; 2) ai rami uscenti da ogni nodo corrispondono le relazioni tra elementi e sotto-elementi ad un dato livello; 3) alle foglie corrispondono gli elementi finali non strutturali (normalmente i caratteri del testo). Le relazioni tra elementi possono essere relazioni di inclusione, di ordine e di ricorrenza: un elemento paragrafo è incluso in un elemento capitolo e può ricorre più volte, un elemento introduzione deve precedere un elemento capitolo, etc. Un esempio di albero gerarchico per un semplice testo è il seguente: [inserire immagine] Il nodo radice è naturalmente il testo stesso; esso è composto da una eventuale introduzione, seguita da un numero imprecisato di capitoli; a loro volta i capitoli sono composti da un titolo seguito da uno o più paragrafi. I nodi terminali dell'albero, o foglie, contengono infine le stringhe di caratteri che costituiscono il testo stesso. Questa struttura dunque non consente l'introduzione di paragrafi all'interno dell'elemento testo e dell'elemento introduzione. Quando si attua la codifica di un testo ciò comporta, ad esempio, che non possiamo inserire il marcatore per i paragrafi immediatamente dopo il marcatore del testo, bensì solo dopo il marcatore per un elemento capitolo. Oltre a facilitare l'ingegnerizzazione informatica del software, questo tipo di sintassi consente di utilizzare il computer su dati testuali in maniera molto più potente che su una base dati di tipo full-text completamente non strutturata. Si può dire che lo SGML e l'idea dei documenti strutturati si pongono a mezza strada tra i documenti full-text, adatti a rappresentare dati di tipo testuale ma completamente privi di struttura, e dunque con conseguenti difficoltà in fase di information retrieval e di analisi, e le basi-dati strutturate, relazionali o gerarchiche, molto potenti e veloci sul piano dell'information retrieval, ma troppo rigide (nonché esigenti sul piano dell'occupazione di spazio) per dati di tipo testuale. ALCUNE IMPLEMENTAZIONI DELLO SGML Lo SGML, come visto, rappresenta un potente strumento per progettare linguaggi di codifica testuale completi e formalmente consistenti, in grado di sopportare numerose operazioni di text-processing, pur mantenendo, attraverso il riferimento ad un dato Document Type, di cui ogni singolo documento elettronico rappresenta una istanza, la massima portabilità. Tuttavia, proprio per garantire questa estrema generalità, lo SGML non provvede alla definizione di un set di marcatori specifici, lasciando agli utenti la massima libertà semantica nella progettazione di Document Type Definition. Questo ha determinato la diffusione di molteplici implementazioni SGML, ciascuna orientata alla soluzione di particolari esigenze di rappresentazione informatica di informazioni testuali. Attualmente, la più diffusa di queste implementazioni è lo HyperText markup Language (HTML),16 il formato utilizzato per la creazione di documenti su World Wide Web, il sottoinsieme ipermediale della rete Internet (malgrado questo legame con SGML sia sconosciuto alla maggioranza dei suoi stessi utilizzatori). Lo HTML è stato sviluppato nei laboratori del CERN di Ginevra alla fine degli anni ottanta. Nella sua versione iniziale esso si presentava come un linguaggio alquanto limitato, orientato strettamente alla distribuzione su rete di documenti organizzati in struttura ipertestuale e moderatamente ipermediale. Le codifiche HTML infatti dovevano essere interpretabili senza problemi da specifici applicativi client in grado di reperire i documenti sorgenti in rete e presentarli all'utente. Questo stretto legame con le applicazioni finali ha determinato dei notevoli limiti sia nella potenza espressiva del linguaggio, che nella sua consistenza strutturale. Solo in parte questi limiti sono stati superati nella versione 2. La versione più recente del linguaggio, denominata HTML 3 (tuttora non rilasciata dalla commissione che definisce i protocolli ufficiali per Internet), presenta un notevole innalzamento di complessità e un sostanziale avvicinamento al carattere strutturato tipico delle applicazioni SGML, pur potenziando anche le risorse di controllo formale dedicate alla creazione di documenti elettronici su rete geografica, che è lo scopo per il quale è nato HTML. Tuttavia anche in questa versione (peraltro "inquinata" da una serie di modifiche di fatto sviluppate da una delle case produttrici di software di rete, già integrate nel prodotto di quella casa senza una validazione in sede ufficiale) vi sono carenze che limitano l'uso di HTML come vero e proprio linguaggio per la codifica di complessi fenomeni testuali, quali quelli che si presentano per la realizzazione di vere e proprie edizioni elettroniche di testi. L'aspetto interessante di questo linguaggio è legato alla sua diffusione su Internet, ed alla massiccia presenza di software in grado di interpretarlo (malgrado essi non siano dotati di adeguate funzionalità di ricerca e di analisi dei testi stessi), che rende immediatamente possibile la realizzazione di banche dati testuali facilmente accessibili da chiunque abbia un accesso alla rete Internet. Tra le altre applicazioni SGML occorre ricordare la cosiddetta architettura CALS (Computer-aided Acquisition and Logistics Support).17 Essa consiste di una serie di specifiche definite dal Department of Defense 16 Informazioni su HTML sono reperibili su Internet, sul server ufficiale del progetto WWW all'indirizzo http://www.w3.org. 17 Cfr. J. SMITH, An Introduction to CALS: The Strategy and the Standards, London, Technology Appraisals Ltd, 1990. degli Stati Uniti, al quale sono tenute a conformarsi tutte le imprese che vendono tecnologie al governo degli Stati Uniti nella realizzazione della documentazione tecnica su supporto informatico dei loro prodotti. Le specifiche del CALS definiscono uno standard per ogni media elettronico, e nella parte testuale si basano sullo SGML, che rappresenta anche l'ambiente di raccordo per tutta l'architettura. Un ulteriore esempio di applicazione SGML in campo industriale è rappresentato dalla DTD sviluppato dalla Association of American Publishers, denominato DocBook DTD, che costituisce il formato ufficiale adottato in tutto il processo produttivo dell'industria editoriale statunitense.18 LA TEXT ENCODING INITIATIVE: UNA SOLUZIONE PER LE SCIENZE UMANE Anche nel campo informatico umanistico si è avvertita l'esigenza di rispondere adeguatamente ai problemi di rappresentazione informatica dei testi e dei documenti, e di definire uno standard per la rappresentazione di testi in MRF, che garantisse sia la validità scientifica della codifica che la intercambiabilità e la portabilità dei testi. Questa esigenza si è resa evidente con la diffusione delle tecnologie informatiche e telematiche nel dominio degli studi umanistici. A partire dal 1987 le tre maggiori associazioni mondiali di studiosi di scienze umane attraverso metodologie informatiche, la Association for Computers and the Humanities (ACH), la Association for Computational Linguistics (ACL) e la Association for Literary and Linguistic Computing (ALLC), hanno avviato un progetto internazionale per sviluppare un modello di codifica normalizzato che mettesse ordine nella intricata congerie di modelli e linguaggi di rappresentazione dell'informazione testuale in formato elettronico. Questo progetto è stato denominato Text Encoding Initiative (TEI), e ad esso hanno partecipato un gruppo di studiosi provenienti da diversi paesi, coordinati da C. M. Sperberg McQueen e L. Burnard.19 La finalità della TEI è quella di definire uno standard per la memorizzazione di testi specificamente orientato alla ricerca in campo umanistico, come affermano chiaramente gli estensori del documento finale del progetto: Because of its roots in the humanistic research community, the TEI scheme is driven by its original goal of serving the needs of research, and is therefore committed to providing a maximum of comprehensibility, flexibility, and extensibility. More specific design goals of the TEI have been that the Guidelines should: — provide a standard format for data interchange — provide guidance for encoding of texts in this format — support the encoding of all kinds of features of all kinds of texts studied by researchers — be application independent.20 Per conseguire tali obiettivi, gli esperti della TEI hanno assunto come linguaggio per la descrizione di documenti lo Standard Generalized markup Language, e come code set di riferimento la ISO 646. Il lavoro svolto dalle varie commissioni del progetto a partire dal 1989 ha portato alla definizione di una vasta e complessa Document Type Definition, le cui specifiche provvisorie sono state pubblicate per la prima volta nel 1991 con il titolo Guidelines for Electronic Text Encoding and Interchange (TEI P1). Il lavoro della TEI ha poi visto successive revisioni che hanno portato alla pubblicazione di altri due manuali: uno nel 1992, TEIP2, nel quale la struttura della DTD è stata notevolmente rivista; ed uno nel 1994 intitolato TEIP3. A partire da questa seconda revisione il manuale della TEI non ha più la qualifica di provvisorio, essendo ormai definitiva la struttura della DTD per quel che riguarda il lavoro pregresso. 18 Cfr. ASSOCIATION OF AMERICAN PUBIISHERS, Author's Guide to Electronic Manuscript Preparation and markup, November 1987 e Reference Manual on Electronic Manuscript Preparation and markup, November 1987. 19 ACH/ACL/ALLC, Guidelines for Electronic Text Encoding and Interchange (TEI P3), a cura di C.M. SPERBERG MCQUEEN e L. BURNARD, Chicago, 1994, 2 volumi. 20 ACH/ACL/ALLC, Guidelines, cit., Part I, par. 1.2.1. "Design Principles of the TEI". I principi che hanno orientato la commissione di sviluppo della TEI nel definire la struttura della DTD sono fortemente aderenti ai fondamenti teorico-formali dello SGML, ovvero la predilezione per un markup di tipo generico-dichiarativo, piuttosto che di tipo specifico. Il modello descrittivo dei testi è basato su una formalizzazione delle convenzioni della produzione di documenti testuali che sono state definite a partire dalla diffusione della stampa, e che sono state codificate fino al punto di divenire un vero e proprio schema di argomentazione (la divisione in capitoli, parti, paragrafi, etc., è un tipico esempio di questo fenomeno di determinazione dialettica tra modelli del pensiero e schemi imposti dagli strumenti di produzione intellettuale). Questa predilezione per una codifica di tipo dichiarativo strutturale è stata rispettata nella maggior parte dei casi, pur osservando che essa comporta in molti casi l'intervento soggettivo dello studioso che effettua la codifica, il quale deve interpretare la funzione delle varie strutture fisiche tipografiche (o manoscritte) per essere in grado di usare i marcatori degli elementi previsti nella DTD della TEI. Tuttavia lo schema prevede anche dei marcatori più specifici o procedurali, utilizzabili quando la scelta della codifica dichiarativa non è praticabile senza introdurre forti problemi interpretativi, o quando le esigenze di ricerca richiedono una forte aderenza del testo elettronico al suo originale cartaceo. Sono previste, inoltre, molte strutture adeguate alla codifica tè, di fenomeni testuali complessi, quali la trascrizione di fonti manoscritte, la pratica ecdotica, l'analisi linguistica e strutturale del testo, la creazione di corpus, nonché la realizzazione di complesse strutture ipertestuali. La TEI infatti provvede uno schema generale, orientato al dominio umanistico, ma non rigidamente determinato. Basti pensare che gli elementi definiti nella DTD sono oltre quattrocento, che molte caratteristiche strutturali di un testo sono provviste di molteplici possibilità di codifica, e che, infine, lo schema prevede ampie possibilità di modifiche locali e di estensioni, per adattarsi ad esigenze particolari di memorizzazione testuale. Per ottenere tale applicabilità ad ampio raggio, coniugata ad una agevole possibilità di revisione si è scelto di dividere logicamente la DTD in molteplici frammenti, corrispondenti ad altrettanti tipologie astratte di testi (testo in prosa, testo poetico, testo drammaturgico, fonte manoscritta, etc.) o di obiettivi di ricerca (codifica a fini editoriali, a fini di analisi linguistica, tematica, narratologica, etc.), organizzati in maniera modulare e gerarchica. L'utente che attua la codifica ha dunque la possibilità di riferirsi al frammento che lo interessa, includendo opportune dichiarazioni all'inizio del documento elettronico. Un sottoinsieme limitato della TEI, denominato TEI lite, è stato rilasciato nell'estate del 1995 per facilitare la diffusione del progetto presso gli utenti senza richiedere lo studio dell'intero schema (alquanto complesso). Esso permette la creazione di documenti TEI-compliant (compatibili, cioè, con l'intero schema) in maniera rapida, e si presta facilmente allo sviluppo di applicazioni. Attualmente le maggiori istituzioni di ricerca a livello mondiale nel campo informatico umanistico hanno assunto la Text Encoding Initiative come linguaggio di riferimento per la creazione di banche dati testuali a fini di ricerca scientifica. La complessità, l'estensibilità e la diffusione, unitamente alla sua origine ed evoluzione interna all'ambito umanistico, ne fanno infatti il più valido strumento di codifica per la creazione di testi elettronici, sia a puro fine editoriale, che come supporto per l'analisi informatizzata dei testi. BA N C H E DA T I T E S T UA L I E B I B L I OT E C H E V I RT UA L I : R E A LT À E P R O S P E T T I V E Chiudiamo questa rassegna sul tema dei testi elettronici con alcune brevi note relative ai "luoghi" in cui i testi elettronici trovano collocazione, le banche dati testuali. Per banca dati testuali intendiamo, più precisamente, un archivio su supporto informatico che contiene un insieme di testi in MRF. Possiamo distinguere due tipologie di banche dati testuali sulla base della modalità di accesso e di consultazione dei dati in esse contenuti.21 Il primo tipo è quello delle banche dati testuali accessibili in modo "locale" su Questo aspetto della nostra classificazione non corrisponde ad una divisione delle banche dati in base al supporto hardware a cui esse sono archiviate, anche se spesso si ha l'idea che una banca dati locale debba essere veicolata su supporto ottici come i CD-ROM. 21 singole stazioni di lavoro; ne sono esemplari la Letteratura Italiana Zanichelli (LIZ) o il Thesaurus Linguae Grecae (TLG). Il supporto più diffuso per la distribuzione di questi archivi elettronici, allo stato attuale, è il CD-ROM, e i materiali contenuti nella banca dati sono generalmente memorizzati nei formati proprietari delle particolari applicazioni software con cui possono essere utilizzati (generalmente si tratta di applicazioni orientate alla indicizzazione di testi, e sistemi di full-text retrieval). Il secondo tipo è quello delle banche dati testuali accessibili da stazioni di lavoro "remote" rispetto a quella in cui i dati sono contenuti, attraverso canali telematici. Queste banche dati, che possiamo definire online, mutuando la terminologia del dominio telematico, a loro volta si dividono in due categorie: 1) semplici archivi "passivi" dai quali l'utente può prelevare testi memorizzati in formato testuale (di norma in base alla code page ASCII) o in formati proprietari, o testi codificati con opportuni linguaggi di marcatura (come le varie implementazioni SGML); 2) banche dati testuali consultabili realmente online in tempo reale, eventualmente dotate di strumenti di text-processing e information retrieval. Attualmente, grazie alla tecnologia World Wide Web, l'interfaccia ipermediale di Internet, questo tipo di banche dati testuali consente di preservare, almeno in parte, gli aspetti grafico-visuali del testo, ma presenta a sua volta una serie di problemi. In primo luogo la leggibilità di un testo su schermo è, allo stato attuale, scarsamente soddisfacente e non prolungabile per i tempi di lettura necessari alla consultazione o lettura di interi testi.22 D'altra parte, da un punto di vista scientifico, la codifica utilizzata in ambiente Web, lo HTML, non consente una adeguata rappresentazione di fenomeni testuali complessi. Una interessante prospettiva si apre con gli sviluppi tecnici previsti per la diffusione di documenti su rete Internet, che comprendono una migrazione verso la completa compatibilità con lo SGML. Le applicazioni SGML, fino ad ora, sono state scarsamente diffuse a causa dell'ingente costo degli applicativi software in grado di sfruttarne le caratteristiche (Dynatext, Explorer, Cyberleaf, PAT sono i rappresentanti più noti di questa classe di strumenti). Si può prevedere che la sua inclusione tra i protocolli standard su Internet determini una inversione di tendenza e faciliti lo sviluppo di software a costi decisamente più accessibili. A conferma di questa prospettiva cominciano ad affacciarsi sul mercato degli strumenti SGML general purpose a basso costo, in grado di ricevere dalla rete un qualsiasi documento SGML, con associato un foglio di stile, e di "presentarlo" in modalità grafica multimediale.23 L'evoluzione delle tecnologie telematiche e la loro vasta diffusione in ambito umanistico (nonché le risorse a disposizione delle istituzioni universitarie, specialmente negli Stati Uniti), hanno determinato, in anni recenti, una notevole espansione delle banche dati testuali online, ed hanno stimolato una grande quantità di iniziative e di sperimentazioni. Grandi biblioteche hanno già avviato progetti per l'archiviazione elettronica del loro patrimonio librario; tra le altre ricordiamo la Library of Congress (il cui catalogo è consultabile su Internet già da alcuni anni), la Biblioteca Nazionale di Francia, la Biblioteca Vaticana (che ha da poco avviato un progetto, in collaborazione con la IBM, per rendere disponibili le immagini digitalizzate di tutti i suoi manoscritti). Naturalmente questi grandi progetti hanno tempi di realizzazione assai lunghi. Tuttavia già oggi esistono molte banche dati che rendono liberamente disponibile un notevole patrimonio testuale; si tratta di progetti realizzati sia da figure istituzionali che da associazioni private, e che sono tutti nati nello spazio virtuale della rete Internet (a dimostrazione della sua enorme potenzialità come strumento di diffusione dell'informazione e come laboratorio di un nuovo spazio comunicativo). Un elenco completo di queste risorse è difficile da redigere, a causa del notevole ritmo di proliferazione, Vanno inoltre considerati i costi di accesso per l'utente finale che, se non è possibile svolgere parte della consultazione offline, possono essere molto alti, limitando la classe di utenza a chi è in grado di accedere alla rete Internet senza il pagamento dei costi telefonici. 22 Ad esempio da pochi mesi la SoftQuad ha rilasciato due versioni, di cui una gratuita, di un browser SGML. Questo strumento (il cui nome è Panorama, e che esiste anche in una versione commerciale) è dotato di caratteristiche di ricerca e di presentazione notevolmente più avanzate rispetto ai normali browser HTML, e può costituire un vero e proprio punto di svolta nell'evoluzione delle tecnologie di editoria elettronica su rete. 23 specialmente negli ultimi anni, e non rientra nello scopo di questo articolo. Ci limiteremo pertanto ad alcuni esempi. Iniziamo con i progetti sviluppati presso sedi universitarie e centri di ricerca istituzionali. Il progetto che spicca per prestigio autorevolezza e tradizione (se di tradizione si può parlare in questo campo), è l'Oxford Text Archive, realizzato dal centro informatico della Oxford University. Tutti i testi pubblicati dall'OTA, in massima parte collocabili nell'area culturale anglosassone, sono codificati in formato SGML/TEI, e rappresentano una grande risorsa di carattere scientifico. L'OTA, oltre a mettere liberamente a disposizione una notevole quantità di testi attraverso la rete Internet, possiede anche una base dati testuale non pubblica, a cui possono avere accesso solo localmente ricercatori e studiosi. Negli Stati Uniti vi sono molte iniziative in ambito accademico volte alla creazione di archivi di testi elettronici con finalità di ricerca. Il Center for Electronic Texts in the Humanities (CETH), fondato dalle università statunitensi di Rutgers e di Princeton con lo scopo di coordinare le ricerche e gli investimenti nell'utilizzazione dei testi elettronici in ambito umanistico, sta realizzando una grande biblioteca virtuale di testi della letteratura anglosassone in formato SGML, e cura anche un catalogo di testi elettronici (Rutgers Inventory of Electronic Texts in the Humanities). Molto simili sono gli scopi dello University of Virginia Electronic Text Center, dove è possibile consultare e fare ricerche su archivi testuali in formato SGML in ambiente Web, tra i quali il Modern English Collection e lo English Poetry Full-text Database. Molto importante è anche lo Institute for Advanced Technology in the Humanities (IATH), con sede presso la University of Virginia di Charlottesville, uno dei maggiori centri di ricerca per l'informatica umanistica, che supporta diversi progetti quali il Rossetti Archive, dedicato al pittore e poeta prerafaelita, nonché una importante rivista scientifica pubblicata interamente in formato elettronico «Postmodern Culture». Tra i grandi archivi testuali in area anglosassone possiamo ancora ricordare lo Women Writers Project, sviluppato presso la Brown University, che raccoglie testi della letteratura femminile inglese dal Trecento all'epoca vittoriana, anche questo interamente in formato TEI e la Humanities Text Initiative con sede alla University of Michigan. Per la letteratura francese invece è di grande importanza il progetto ARTFL (Project for American and French Research on the Treasury of the French Language), sopportato dal Centre National de la Recherche Scientifique e dalla University of Chicago, che permette la consultazione online di un database testuale contenente oltre duemila testi sia letterari che non letterari, sui quali è possibile effettuare ricerche e spogli lessicali (non è invece possibile prelevare i file contenenti i testi). Caratteristiche tecniche simili, infine, sono presentate dal Dartmouth Dante Project, curato da Robert Hollander, che, come si evince dal nome, è dedicato specificamente agli studi danteschi. Il database contiene allo stato attuale, insieme all'opera omnia del poeta, i testi di tutti i commenti danteschi redatti fino al nostro secolo.24 Accanto a queste iniziative istituzionali, esistono una serie di progetti, realizzati e curati da organizzazioni ed associazioni private e volontarie. Le banche dati testuali realizzate da queste organizzazioni mettono a disposizione archivi di testi in formato ASCII standard prelevabili liberamente tramite il protocollo FTP, che poi l'utente potrà utilizzare sulla propria stazione di lavoro. Questa scelta si presenta indubbiamente come la più efficiente per iniziative che non godono di fondi e finanziamenti come quelle accademiche, ma presenta alcuni problemi di carattere scientifico. In primo luogo i testi non sempre hanno un grado di affidabilità filologica elevato; in secondo luogo, la scelta del semplice codice ASCII come linguaggio per la codifica dei testi comporta tutte le carenze che abbiamo evidenziato precedentemente dal punto di vista della rappresentazione corretta ed esaustiva delle informazioni testuali presenti nel testo di origine, pur se permette di garantire un grado di portabilità assai elevato dei dati stessi. Tuttavia si tratta di iniziative che, basandosi sullo sforzo volontario di moltissime persone, possono avere L'OTA è raggiungibile all'indirizzo http://ota.ox.ac.ul/TEI/ota.html. Il CETH e il Rutgers Inventory of Electronic Texts in the Humanities hanno invece l'indirizzo http://cethmac.princeton.edu. Un elenco ragionato con gli indirizzi e collegamenti attivi ai siti che ospitano questi ed altri progetti di basi dati testuali che utilizzano tecnologie SGML, è reperibile su Internet all'indirizzo http://ww.sil.org/sgml/acadapps.html. L'indirizzo del progetto ARTFL è http://tuna.uchicago.edu/ARTFL.htm. Sul Dartmouth Dante Project si veda R. HOLLANDER, Il Dartmouth Dante Project, in C. LEONARDI - M. MORELLI - F. SANTI (a cura di), Macchine per leggere, cit., pp. 83-99; la banca dati è raggiungibile all'indirizzo telnet baker.dartmouth.edu. 24 notevoli ritmi di crescita, e che già oggi mettono a disposizione una notevole mole di materiale altrimenti inaccessibile ad un vasto numero di utenti.25 La più nota, ed anche la prima in assoluto, di queste banche dati testuali è il Progetto Gutenberg. Questo progetto, dedicato alla letteratura anglosassone, è nato per iniziativa di Michael Hart nel 1971. Attualmente conta oltre 250 testi, e una notevole quantità di collaboratori che hanno l'obiettivo di raggiungere i mille testi entro la fine del millennio. Tra i testi in esso contenuti vi sono i classici della letteratura inglese, come Shakespeare, Milton e Melville, ma anche la Bibbia, ed alcune opere di consultazione. Sulla spinta del capostipite Gutenberg, sono nati una serie di progetti simili, dedicati ad altre letterature nazionali: l'omonimo Project Gutenberg per la letteratura tedesca, il progetto Runenberg per le letterature scandinave, il progetto Cervantes per la letteratura spagnola, il progetto ABU (Association des Bibliophiles Universels, nome anche dell'associazione che lo cura, tratto dal romanzo di Umberto Eco Il pendolo di Foucault) per la letteratura francese. Anche per la letteratura italiana è attiva da alcuni anni una iniziativa simile, il Progetto Manuzio, al quale collabora anche l'autore di questo lavoro. Il Progetto Manuzio è nato come biblioteca dei classici della letteratura italiana, della quale conta attualmente oltre sessanta titoli (tra cui Dante, Boccaccio, Manzoni, Svevo e Pirandello), ma sta evolvendo verso una forma di biblioteca generalista e di archivio documentario storico.26 Questa breve e disomogenea rassegna, che non pretende assolutamente di essere esaustiva, ha lo scopo di dare una idea sia delle esperienze già oggi concretamente praticabili, che delle prospettive aperte dalle nuove tecnologie al mondo della ricerca umanistica, ed al contiguo mondo delle biblioteche. Gli sviluppi della telematica, ed in primo luogo il fenomeno Internet, su cui non possiamo in questa sede soffermarci, ha prodotto e sta producendo notevoli trasformazioni nella conduzione del lavoro scientifico, anche in un settore generalmente conservatore e refrattario al contatto con la tecnologia, come quello degli studi umanistici. La realizzazione di banche dati testuali online, lascia prefigurare una nuova forma della diffusione e della consultazione del sapere: si può parlare, a questo proposito, di vere e proprie biblioteche virtuali. Tuttavia, per evitare che il passaggio verso questo nuovo medium comporti perdita di informazioni, per fare dei testi elettronici una vera e propria risorsa scientifica, per non incorrere, infine, in rischi di rapida obsolescenza tecnologica degli archivi, è necessario individuare modelli e tecnologie adeguati. Lo strumento che, allo stato attuale, risponde meglio a queste diverse esigenze è lo Standard Generalized markup Language. Esso costituisce una potente e flessibile risorsa in grado, come abbiamo cercato di mostrare, di facilitare l'introduzione dell'informatica nel mondo della ricerca umanistica, di risolvere i problemi teorici implicati nella memorizzazione dei testi, e di realizzare biblioteche virtuali corredate di validi strumenti di ricerca e di analisi. Un aspetto problematico ulteriore per queste esperienze (ma da cui non sono esenti nemmeno le iniziative di carattere accademico o istituzionale, laddove esistano) è quello giuridico: poiché i testi vengono distribuiti gratuitamente queste banche dati sono vincolate dalle varie legislazioni sui diritti d'autore, legislazioni nate tutte nell'era del libro cartaceo. 25 L'indirizzo principale su Web del Project Gutenberg è http://jg.cso.uinc.edu/ PG/welcome.html; l'omonimo tedesco si trova invece su Web all'indirizzo http://gutenberg.informatik.uni-hamburg.de/gutenb/home.htm la biblioteca di ABU all'indirizzo http://web.cnam.fr/ABU/; il progetto Runenberg all'indirizzo http://www.lysator.liu.se/runeberg/Main.html ; il progetto Cervantes è invece raggiungibile tramite il gopher infrs.mxl.cetys.mx; per quanto riguarda il Progetto Manuzio, informazioni dettagliate sono sulle pagine Web della Associazione Liber Liber, che sostiene l'iniziativa, all'indirizzo http://www.liberliber.it. 26