testi elettronici e banche dati testuali: problemi teorici e tecnologie

Transcript

T E S T I E L E T TRO N ICI E
BA N CH E DAT I T E ST UA L I :
PRO B L E M I TE O R ICI E
T E C NO L OG IE
Fabio Ciotti
I N T RO D U Z I O N E
Questo articolo si propone di fornire una introduzione ai problemi metodologici e tecnici sollevati
dall'archiviazione elettronica dei testi e dalla realizzazione di banche dati testuali. È questo uno degli
aspetti fondamentali dell'incontro tra tecnologie informatiche e studi umanistici, la cui diffusione avrà
conseguenze profonde sul modo di (ri)produzione e diffusione dei testi, e sul modo di concepire le
biblioteche: una vera e propria "svolta epistemica". Non è nostra intenzione affrontare una riflessione di
carattere generale sulla portata di queste innovazioni; nondimeno, non ci si può esimere dal considerare le
trasformazioni che esse determineranno sull'insieme delle pratiche sociali studiate dalla scienza letteraria,
ed in particolare su quell'entità che nella nostra cultura designiamo con il termine di testo letterario. Dove per
"testo letterario" intendiamo tutto il complesso di funzioni segniche che lo costituisce in quanto oggetto
informazionale, a partire dal sostrato materiale che lo veicola. Anzi, è proprio quest'ultimo aspetto materiale
che subisce una mutazione radicale, pari a quella dell'introduzione della stampa da parte di Gutenberg.
L'oggetto "libro", che, nella cultura occidentale, per cinque secoli è stato il più importante medium con il
quale è stato veicolato il sapere, con l'introduzione del supporto informatico, appare improvvisamente
obsoleto, e destinato ad assumere un peso sempre minore nella trasmissione di informazioni e
conoscenza. E lo stesso discorso si potrebbe fare per i canali di diffusione dei libri, le biblioteche e le
librerie, che vanno ripensate alla luce delle innovazioni portate dai sistemi di trasmissione telematica delle
informazioni.
Naturalmente il passaggio del patrimonio testuale della nostra cultura verso questo nuovo medium
propone una serie di problemi sia culturali che tecnologici. In primo luogo si pone il problema della
salvaguarda di tutto il valore informativo dei testi tradizionali. In altri termini, nel memorizzare un testo su
un supporto elettronico, operazione assai meno innocente di quanto non appaia a prima vista, come e fino
a che punto è possibile mantenere questo valore informativo? Per non perdere ciò che non si è in grado di
riprodurre immediatamente, occorre effettuare un processo di ri-codificazione delle fonti, processo che deve
essere il più possibile conservativo. A questo primo ordine di problemi si aggiunge l'esigenza di garantire
l'universalità dell'accesso ai nuovi supporti, che deve essere almeno pari a quella del libro. Nell'ambito
informatico questa esigenza si traduce in quella della portabilità dei documenti informatici, ovvero la
capacità di scambiare gli stessi tra sistemi operativi, software applicativi, hardware diversi. A questo fine
diventa necessario individuare un codice standard per rappresentazione dei testi memorizzati che tenga conto
delle esigenze scientifiche e che permetta la totale intercambiabilità dei testi tra la comunità scientifica, e la
più generale comunità dei lettori: sarebbe assurdo infatti attuare un notevole sforzo umano ed economico
per memorizzare un corpus di opere e magari farlo in modo che esso sia a disposizione di un solo
dipartimento universitario.
La creazione di banche dati testuali, ed in prospettiva di vere e proprie "biblioteche virtuali" (per usare
il termine alla moda nel mondo della telematica), deve necessariamente misurarsi con questi problemi. Il
presente lavoro d'altra parte, rappresenta il frutto, parziale, di una duplice esperienza sperimentale svolta
dall'autore: in parte come collaboratore del laboratorio di ricerca su informatica e studi letterari istituito
presso il Dipartimento di Italianistica dell'Università di Roma "La Sapienza"; in parte come responsabile
scientifico del Progetto Manuzio, la prima banca dati di testi letterari italiani sulla rete Internet.1 In questo
senso, le riflessioni che seguono rispondono ad un duplice intento: dare una giustificazione teorica alle
scelte fatte, di volta in volta, per affrontare e risolvere i problemi pratici che si sono presentati nel corso
della sperimentazione, e indicare le soluzioni che, allo stato attuale, sembrano le più adeguate.
LA MEMORIZZAZIONE DEI TESTI: ALCUNI PROBLEMI TEORICI
LA RAPPRESENTAZIONE ELETTRONICA DEI TESTI: CODIFICA E MODELLI
Nella nostra cultura la quasi totalità dei testi (fino a questo momento) è costituita da testi veicolati da
supporti cartacei di varia natura e forma. Per rendere disponibile questo patrimonio attraverso i sistemi
elettronici di gestione dell'informazione è necessario dunque attuare una trasposizione esaustiva e fedele
dei testi dal loro supporto originario al nuovo supporto elettronico. Secondo l'uso invalso nell'ambito degli
studi di trattamento automatico dei testi useremo l'espressione inglese Machine Readable Form (abbreviato
MRF) per indicare un testo archiviato su un qualsiasi supporto elettronico (dischi magnetici, CD-ROM,
memoria RAM, etc.).
Questa trasposizione, che chiamiamo memorizzazione informatica del testo, ben lungi dall'essere una mera
riproduzione meccanica, presenta invece una natura complessa in cui sono implicati molteplici problemi
teorici e pratici, occultati da un approccio tradizionale ai testi e da una concezione idealista del fatto
letterario. Tale occultamento è dovuto alla apparente naturalità della lettura di una pagina scritta, che è un
atto automatico effettuato dal lettore senza alcuno sforzo interpretativo cosciente. Tuttavia proprio questo
automatismo della lettura cela una serie di meccanismi percettivi e significanti, che riguardano sia la natura
della scrittura e della pagina tipografica, che i processi percettivi del cervello. Tutti gli studiosi che si sono
misurati su queste tematiche, concordano sul fatto che il problema della memorizzazione elettronica del
testo supera il semplice livello del trasferimento meccanico di sequenze grafiche in stringhe di caratteri:
Si deve evitare di considerare il momento in cui il testo viene registrato, o per dirla alla moda, «catturato»
come puramente meccanico. Un momento sul quale non è necessario riflettere più di tanto poiché si tratta di
una fase secondaria e non rilevante. Si opera così un radicale rovesciamento nella concezione delle varie fasi
che costituiscono il lavoro dello studioso.2
Il computer è una macchina che riceve, modifica e restituisce informazioni. Questa definizione
generale e volutamente non tecnica, ci permette di evidenziare la somiglianza formale tra le attività ed i
processi effettuati da un computer e il più generale insieme dei fenomeni comunicativi. Ci si accorge, così,
che la memorizzazione di un testo non è solo, o non tanto una mera trasposizione meccanica, bensì un
atto di trasmissione di informazioni, in prima istanza, verso un computer. Da questo punto di vista la
memorizzazione del testo in MRF si può rappresentare come un processo comunicativo. Come tutti i processi
1
Naturalmente ai maestri, colleghi ed amici va il mio ringraziamento per i consigli e le proficue discussioni.
2 G. GIGLIOZZI, L'informatica e l'Italianistica. Una panoramica e qualche spunto teorico, in «Bollettino di Italianistica», V, 1987 (l993),
pp. 1-15. Ma si vedano anche: G. GIGLIOZZI (a cura di), Studi di codifica e trattamento automatico dei testi, Roma, Bulzoni,1987, ed in
particolare in questo volume T. ORLANDI, Informatica Umanistica. Riflessioni storiche e metodologiche, con due esempi, pp. 1-37; G.
ADAMO, La codifica come rappresentazione. Trasmissione e trattamento dell'informazione nell'elaborazione automatica di dati in ambito umanistico,
pp. 39-63; R. MORDENTI, Appunti per una semiotica della trascrizione nella procedura ecdotica computazionale, pp. 85-124. Altre utili
indicazioni in T. ORLANDI, Informatica umanistica, Roma, La Nuova Italia Scientifica, 1990 G. GIGLIOZZI, Letteratura modelli e
computer. Manuale teorico-pratico per l'applicazione dell'informatica al lavoro letterario, Roma, Editrice Universitaria di Roma-La Goliardica,
1993; G. ADAMO (a cura di), Trattamento edizione e stampa di testi con il calcolatore, Roma, Bulzoni, 1992; D. BUZZETTI - A.
TABARRONI, Informatica e critica del testo: il caso di una tradizione fluida, in «Schede Umanistiche», Nuova Serie, 2, 1991, pp. 185-193;
F. CIOTTI, Il testo elettronico: memorizzazione, codifica ed edizione informatica del testo, in C. LEONARDI - M. MORELLI - F. SANTI (a
cura di), Macchine per leggere. Tradizioni e nuove tecnologie per comprendere i testi. Atti del convegno organizzato dalla "Fondazione Ezio
Franceschini" e dalla "Fondazione IBM Italia", Firenze, 19 novembre 1993, Spoleto, Cisam-Fondazione E. Franceschini, 1994,
pp. 213-230.
comunicativi esso viene mediato da un dispositivo che rende possibile la comprensione tra i due attori del
processo, ovvero da un codice:
Se si vuole trasferire un testo (a stampa o manoscritto) sull'elaboratore per sottoporlo a trattamento
automatico (o trasmissione) si deve cercare di compiere il trasferimento senza, o riducendo al minimo la
perdita di informazione. Si deve cercare di rappresentare sull'elaboratore tutta l'informazione contenuta nel
testo. Di qui nasce il problema della codifica.3
Il trasferimento del testo su supporto informatico propone dunque allo studioso alcuni quesiti teorici,
oltre a numerosi problemi pratici: a partire dalla decisione (non innocua) su quale particolare edizione del
testo si debba utilizzare come "fonte" della memorizzazione, fino all'individuazione delle varie tipologie di
informazioni veicolate nel testo, delle modalità di rappresentazione informatica delle stesse e dei limiti da
porre a tale operazione, per non cadere in regressi ad infinitum nell'analisi della realtà. Insomma, il problema
della rappresentazione simbolica dell'oggetto di studio anche nella semplice creazione di una banca dati,
sottende una scelta semiotica, come ha rilevato lo studioso francese Jean-Claude Gardin:
... il n'est pas de recherche documentaire informatisée sans analyse documentaire, pas de base de donneés
sane un système sémiologique associé, plus o moin explicite, où soni définis les symbols qui servent à
représenter les objects que ces processus et ces outils sont censées nous aider à brasser, dans les perspectives
ouvertes par le traitament automatique de l'information.4
Naturalmente questa definizione semiologica sottende a sua volta una scelta epistemologica, ovvero la
definizione di criteri di rilevanza e di correttezza che orientino la rappresentazione e ne garantiscano
l'esaustività. Si pensi, a titolo di esempio, alla funzione che nel processo di produzione/fruizione testuale
rivestono gli elementi non linguistici, ovvero la disposizione tipografica, i caratteri, l'impaginazione, lo
stesso sostrato materiale cartaceo. Essi vanno considerati parte integrante del testo, o piuttosto sono
elementi estranei e dunque passibili di essere tralasciati nella operazione di memorizzazione, qualsivoglia
siano le modalità con le quali essa viene effettuata? Su un piano più generale, quando un testo viene
trasposto su un supporto informatico, per studiarlo, per sottoporlo ad analisi di qualsiasi tipo, od anche
solo per leggerlo, evidentemente la sua natura cambia in modo radicale: cosa ci garantisce che l'operazione
è stata effettuata correttamente, che insomma si tratti proprio dello stesso testo? Come rileva acutamente
ancora Gardin la via migliore è quella di rifuggire a tentazioni essenzialiste nella analisi dell'oggetto,
assumendo una prospettiva pragmatica ed aperta:
... nous devons nous interroger sur le raisons qui nous conduisent à retenir une certain facon de «voir» nos
objects entre mille autres possibles, c'est-à-dire d'en retenir certains aspects, constituants, attributs et d'en
négliger d'autres, au nom de l'idée que nous nous faisons de la pertinence relative de chacun pour le gente de
recherches que nous voulons servir.5
Occorre insomma assumere ed esplicitare a ragion veduta un determinato punto di vista che conduca
alla formulazione di una certa rappresentazione, che potremo chiamare un modello, del nostro oggetto di studio
pragmaticamente utile. D'altra parte, anche dal punto di vista dell'informatica, il problema della
rappresentazione dei dati è uno dei nodi cruciali, poiché il computer pone dei vincoli formali assai stretti alla
stessa rappresentazione, con i quali occorre confrontare la realtà che si intende rappresentare. Tutto ciò
che può essere espresso sia in termini di dati che di operazioni di trasformazione su quei dati all'interno
del computer deve basarsi su questi rigidi vincoli formali, ovvero deve poter essere trasformato attraverso
un numero finito di passi in una sequenza di numeri binari esprimenti dati ed istruzioni, codificate
numericamente, del linguaggio macchina.
3
D. BUZZETTI - A. TABARRONI, Informatica e critica del testo, cit., p. 186.
4 J.C. GARDIN, Le calcul et la raison. Essai sur la formalisation du discours savant, Paris, Édition de l'École des Hautes Études en
Science Sociale, 1991, p. 60.
5
J.C. GARDIN, Le calcul et la raison, cit., p. 60.
Nell'elaborazione automatica ha un ruolo molto importante la rappresentazione delle informazioni.
Dato che un calcolatore "capisce" solamente i valori binari, bisogna "tradurre" in opportune
configurazioni di valori binari qualsiasi tipo di informazione che si voglia elaborare: le informazioni
devono essere codificate. Il codice, cioè l'insieme delle regole di corrispondenza fra le informazioni e la
loro rappresentazione binaria, è frutto di convenzione, ma non può essere del tutto arbitrario: deve essere
stabilito in modo che le manipolazioni che il calcolatore può effettuare sulle rappresentazioni
corrispondano alle operazioni che si vuole effettuare sulle informazioni.6
Non casualmente in ambito informatico sono stati sviluppati una vasta congerie di strumenti per la
modellizzazione di oggetti e processi, e il concetto di modello riveste una importanza centrale sia nello
sviluppo della teoria dell'informatica, che nella progettazione di sistemi informativi veri e propri. Le
riflessioni svolte finora ci consentono riassumere nei seguenti punti i nodi teorici e pratici implicati da
questa modellizzazione informatica del testo:
1) individuare correttamente ed esaustivamente i dati pertinenti della fonte, ovvero tutti gli
elementi significanti del testo, anche quelli che ad una lettura "normale" non vengono
considerati rilevanti perché immersi nella sfera dell'inconsapevole e del non cosciente;
2) progettare un sistema di codifica dei dati che si adatti alla natura fisica del canale e del
destinatario, e che permetta di rappresentare nel passaggio dalla forma stampata alla
forma elettronica tutte le informazioni significanti.
Il primo punto rimanda al problema della definizione chiara e strutturata degli elementi che
costituiscono un oggetto (nel nostro caso il testo), ad un determinato livello, e delle relazioni tra questi
elementi. La formulazione di un modello, come visto, comporta la determinazione di un punto di vista a
partire dal quale effettuare la selezione degli elementi pertinenti che si intende rappresentare, ovvero la
scelta del livello al quale si intende descrivere il testo stesso. La codifica elettronica da parte dello studioso
sarà dunque orientata pragmaticamente dalle esigenze poste dalla ricerca. Nel seguente paragrafo faremo
una breve ricognizione su questo tema.
Il secondo punto comporta la scelta o la progettazione di un linguaggio descrittivo dell'oggetto, che sia
o il codice binario, o una trasformazione definita del codice binario, poiché il computer è in grado di
comprendere solo tale famiglia di linguaggi. I modelli che vengono utilizzati in informatica, infatti, devono
rispettare le limitazioni sintattiche che vengono imposte dal medium digitale. Ci occuperemo di questo
aspetto nella seconda parte di questo articolo, indicando una possibile risposta che le tecnologie
informatiche mettono a disposizione per le esigenze dell'informatica umanistica.
TESTO, PARATESTO E DOCUMENTO: ELEMENTI PER UNA EDIZIONE ELETTRONICA
La rappresentazione/codifica di un testo nella memoria del computer, effettuata secondo criteri
scientifici, implica la elaborazione di uno o più modelli descrittivi di tale testo, che dovranno poi essere
implementati in un linguaggio comprensibile alla macchina (dove comprensibile sta per processabile).
Finora abbiamo usato la nozione di testo in modo acritico, come designante una certa entità informativa,
che rappresenta la fonte dell'informazione nel processo di memorizzazione. Questa indeterminatezza va
dunque risolta. Occorre stabilire con precisione cosa si intende con testo, quali elementi e quali strutture
sono rilevanti al fine di darne una corretta rappresentazione informatica. Naturalmente non è questo il
luogo per affrontare esaustivamente tutti gli aspetti di questa analisi: le ricerche ipotizzabili su un testo
sono infatti innumerevoli e ricoprono ambiti tematici che vanno dalla critica testuale, all'analisi stilistica,
fino alla modellizzazione delle strutture narrative o delle strutture tematiche. Il nostro interesse in questa
sede si rivolgerà alle modalità di realizzazione di una edizione elettronica del testo.
Il termine "testo", come tutti i termini di uso comune nella lingua quotidiana e nella lingue
specialistiche di alcune discipline, presenta molteplici significati. Una buona strada per iniziare la nostra
analisi potrebbe essere quella etimologica: "testo" proviene dal latino textus, un deverbale che deriva a sua
6
G. AUSIELLO ET AL., Modelli e linguaggi dell'informatica, Milano, McGraw-Hill Italia, 1991, p. 22.
volta dall'uso metaforico del participio passato di temere, che significava "tessere" la tela, e dunque
"intrecciare" e "connettere" i fili.7 Questa tradizione viene ereditata dalle lingue occidentali moderne in
forme fonologicamente molto simili: testo in italiano e spagnolo, text, in francese, ma anche in tedesco ed
inglese. Evidentemente la metafora, attestata per la prima volta nell'opera del grammatico e retore
tardo-latino Quintiliano, voleva connotare l'intreccio di rapporti (semantici) che le parole del testo
instaurano tra loro, similmente alla trama di un tessuto. Da questo punto di vista con testo si intende
dunque una sequenza coerente di unità di una lingua, prodotto di una enunciazione del linguaggio verbale,
ovvero un discorso.
Al significato originario della parola testo si sono però aggiunte altre accezioni per trasposizione
metonimica, che si riferiscono estensionalmente al supporto materiale (libro o manoscritto), o alla
sequenza di segni di scrittura, ovvero iscrizioni. Questa plurivalenza del campo semantico del termine, che è
attestata sia nel linguaggio comune che nel linguaggio specialistico degli esperti e degli studiosi dei testi per
eccellenza, i letterati ed i filologi,8 ha salde radici pragmatiche: di fatto ogni volta che si viene a contatto
con un testo verbale ciò avviene attraverso la mediazione di tracce inscritte su un supporto materiale dotato
di talune caratteristiche che, in un certo senso "veicola" il testo.
La definizione del concetto di testo, dunque, si presenta meno "semplice" di quanto non appaia ad un
approccio orientato esclusivamente al livello linguistico. Si dimentica il fatto che «in un testo si
sovrappongono, quasi si stratificano significanti e significati», come rileva Segre, che il testo intanto è un
enunciato del linguaggio verbale in quanto esso si manifesta attraverso la realizzazione fisica di una
sequenza di caratteri.
Quando parliamo di elementi del testo, possiamo alludere tanto a elementi del significante, quanto ad
elementi del significato. Va ribadito che i secondi sono impliciti, e come sviluppati dai primi. Qualunque
analisi del testo deve dunque avere il punto di partenza nel fatto che il testo è costituito da una successione di
significanti grafici, o monemi, formati da gruppi di grafemi. È questa successione, immutabile se si prescinde
dai guasti della tradizione, che sviluppa poi, nell'atto della lettura, i significati.9
Se dunque il testo, in un senso è ciò che permane, l'invariante, in ogni operazione di riproduzione
materiale della sequenza di simboli grafici, il contatto tra il testo inteso in questo senso astratto, ed il
fruitore, viene reso possibile dall'esistenza di un oggetto sensibilmente concreto (ovvero capace di attivare
uno dei canali recettivi dell'uomo verso stimoli esterni), che costituisce il supporto materiale, stabile e
riproducibile dell'informazione testuale: definiamo questo supporto un documento.
Ci troviamo di fronte, quindi, ad una serie di mediazioni materiali che ci permettono di attingere il testo
nella sua forma di sequenza di segni verbali, ma che ci legano inderogabilmente ad un singolo oggetto,
composto da carta, tracce di inchiostro, cartone o pelle, se il volume è dotato di copertina. Quando si
traspone un testo in MRF, l'operazione che si attua, a rigore, è la memorizzazione del testo per come esso
appare in quel particolare libro singolo, esemplare di una determinata edizione di un determinato o
indeterminato manoscritto che sopportava quella che l'autore, in un dato momento del suo periodo
creativo, considerava una redazione definitiva dell'opera.
Questo imprenscindibile legame oggettivo propone una serie di problemi a cui abbiamo già fatto
cenno in apertura: un documento non è solo testo, e nella sua costituzione intervengono altri fattori di
7 Cfr. C. SEGRE, Avviamento all'analisi del testo letterario, Torino, Einaudi, 1985 pp. 360-362; ed anche il Dizionario della lingua latina.
Latino-italiano di Calonghi edito da Rosenberg & Sellier ai lemmi corrispondenti. L'accezione metaforica riferita alla "trama
verbale" di un discorso, alla sua "composizione", simile alla trama (altra metafora tessile in campo letterario!) di un tessuto, è
piuttosto tarda, poiché risale a Quintiliano e precisamente in Istitutio oratoriae, IX, 4, 13.
Si veda C. SEGRE, Avviamento all'analisi del testo letterario, cit., p. 362: «Sin dal medioevo, del resto, il concetto di testo oscilla tra il
livello segnico (ciò che sta scritto in un'opera) e quello dell'attuazione materiale, così che textus viene ad indicare il codice in cui il
testo è trascritto, o persino la sua scrittura (textus quadratus, semiquadratus, ecc.; testo pergamenaceo, cartaceo; testo manoscritto
o a stampa). Una oscillazione mantenuta nella filologia umanistica e in quella moderna, che parlano degli esemplari di un'opera
come di suoi testi».
8
9
C. SEGRE, Avviamento all'analisi del testo letterario, cit., p. 45.
carattere materiale, fisico, economico, merceologico ed anche semiotica. La fruizione del testo, mediata dal
documento, non si può descrivere esclusivamente come un astratto processo comunicativo tra
autore-emittente e lettore-destinatario. Su questo asse virtuale si interpongono un complesso di pratiche
materiali e semiotiche che sul testo intervengono, in base a codici e a regole, e che producono quella entità
che abbiamo definito documento. Tutta questa serie di informazioni, che nell'atto di lettura agiscono
prevalentemente a livello inconsapevole, contribuiscono attivamente ad orientare la lettura, focalizzando
l'attenzione del lettore, indirizzando il flusso di lettura, scandendo le divisioni semantiche del testo.
L'autorevole semiologo e studioso di letteratura Gerard Genette ha dedicato un lungo ed interessante
saggio a tutte quelle pratiche discorsive, iconiche e materiali che non sono il testo in senso stretto, ma che
lo accompagnano, sia spazialmente che cronologicamente, nel contatto con il fruitore, definendole con il
termine di paratesto.10 La relazione tra testo e paratesto, secondo Genette, non può essere vista come
semplice contiguità spaziale poiché «è attraverso il paratesto dunque, che il testo diventa libro e in quanto
tale si propone ai suoi lettori». Egli nell'ambito del paratesto assegna uno statuto particolare a tutto ciò che
accompagna materialmente il testo:
Un elemento del paratesto se costituito da un messaggio materializzato, ha necessariamente un'ubicazione, che
si può situare in relazione a quella del testo stesso: intorno al testo, nello spazio del volume stesso, come il
titolo o la prefazione, e qualche volta inserito negli interstizi del testo, come i titoli dei capitoli o certe note;
chiamerò peritesto questa prima categoria spaziale.11
Gli elementi del peritesto possono essere scritture (quali gli intertitoli, le epigrafi, i commenti) oppure
pratiche esclusivamente visuali (composizione tipografica, impaginazione), ed a loro volta si possono
distinguere in interventi autoriali, quando è l'autore del testo che ne assume le responsabilità, o interventi
editoriali se è l'editore ed il grafico ad operare le scelte. La funzione semiotica degli elementi non verbali
della pagina stampata, della quale si è persa consapevolezza solo con l'inizio delle produzione massificata
di libri e riviste a partire dalla fine del secolo scorso, viene attestata dalla storia della stampa tipografica e
dalla funzione culturale svolta dalle stamperie nel corso del primo secolo di storia del libro. Ogni tipografo
di fama caratterizzava i suoi libri attraverso l'uso di un certo carattere tipografico, che veniva disegnato
appositamente. Anche il formato del foglio e la qualità della carta costituiva una caratteristica codificata da
regole precise, che associavano ciascun formato alla valutazione del valore o della serietà del contenuto di
un opera.
Esiste peraltro una tradizione secolare, che nasce nel periodo alessandrino e giunge attraverso i carmina
intexta medievali, i carmina figurata barocchi, alle avanguardie letterarie del nostro secolo, che attesta come
molti autori hanno avuto presenti le possibilità estetiche che derivano da una semantizzazione degli
elementi non-verbali di un testo scritto. Si pensi alla rilevanza che ha questo ambito di problemi nella
redazione dei testi poetici, e alla tematizzazione esplicita che di ciò le avanguardie del nostro secolo hanno
fatto, a partire dal Coup de dés di Mallarmé, fino alle più recenti esperienze di poesia visiva e concreta. Ma
anche nella storia del romanzo vi sono esempi di consapevolezza del ruolo della disposizione tipografica e
topografica del segno grafico nella pagina bianca, come il Pantagruel di Rabelais, il Tristram Shandy di Sterne,
Alice nel paese delle meraviglie di Lewis Carrol.
Il rapporto tra testo e paratesto appare dunque molto più complesso di quanto non sembri in prima
istanza. Ogni scelta fatta nell'edizione risponde a pratiche codificate che possono essere veicolo sia di
aspetti semantici denotativi che di connotazioni complesse, legate alla funzione sociale e dunque
storicamente determinata del documento in questione. Si pensi, ad esempio, alla divisione in parti di un
testo, parti che possono essere capitoli, paragrafi, capoversi, o ancora canti, parti. Queste informazioni,
che sono percepite come caratteristiche del testo, vengono veicolate esclusivamente da elementi peritestuali
(impaginazione, modificazione dei caratteri, spaziature, etc.): la semplice compitazione dei caratteri, o la
semplice interpretazione del tessuto verbale del testo non ci consentirebbe (se non in rari casi) di percepire
tali partizioni, poiché la struttura semantica o narrativa profonda non sempre coincide con le sua partizioni
10
G GENETTE, Soglie. I dintorni del testo, trad. it. Torino, Einaudi, 1989. 11 G GENETTE, Soglie, cit. p. 6.
11
G. GENETTE, Soglie, op. cit. p.6.
di superficie, come si può verificare ascoltando un testo recitato. La duplice natura di queste strutture è
legata al fatto che, storicamente, questo è un caso in cui il paratesto non si è semplicemente affiancato al
testo, ma ha agito profondamente sul modo di produrre e di fruire dei testi. Basti pensare che l'abitudine
di suddividere il testo in capoversi è sorta solo dopo l'avvento della stampa per motivi esogeni, e solo
successivamente queste micro-partizioni sono state introiettate e concepite come elementi strutturali di un
testo. Lo stesso si può rilevare per l'uso degli intertitoli.12
Questa breve discussione, in conclusione, mostra la complessa intersezione di codici e strutture
soggiacenti al nesso che si instaura tra testo e documento. Inevitabilmente tale viluppo si ripercuote nella
determinazione dei criteri che occorre adottare quando ci si appresta a trasferire il testo in MRF. Anche un
progetto "minimale" di ricerca, quale la realizzazione di una edizione elettronica di un testo, pone dunque
problemi di rappresentazione piuttosto complessi. Si rende necessaria infatti la traduzione sia dello schema
notazionale della scrittura (attraverso la correlazione tra ogni carattere e una sequenza ordinata di simboli
binari), che la modellizzazione, mediante un adeguato linguaggio informatico, dell'organizzazione del testo e
dei suoi elementi paratestuali, che hanno una funzione di estrema importanza nella singolarizzazione del
testo, e nella individuazione dei suoi confini e della sua struttura.
T E C N O L O G I E E L I N G UA G G I P E R L ' E D I Z I O N E E L E T T R O N I C A D E I T E S T I
LE TECNOLOGIE INFORMATICHE PER LA DIGITALIZZAZIONE DEI TESTI
L'informatica è nata, e si è evoluta per lungo tempo, quasi esclusivamente in ambito scientifico (nel
senso stretto) e gestionale. Solamente i progressi degli ultimi anni hanno reso possibile la diffusione di
tecnologie hardware e software in grado di rispondere alle esigenze sollevate da applicazioni in ambito
umanistico, ed a costi non proibitivi. In particolare, si è assistito ad un notevole sviluppo nel settore della
immissione, rappresentazione e trattamento dei documenti testuali (sulla spinta della cosiddetta office
automation ed alla evoluzione rapidissima della computer-graphic, ovvero del trattamento informatico delle
immagini.
Tutte le macchine che vengono denotate attualmente dai termini "computer", "calcolatore",
"elaboratore elettronico", sono organizzate secondo un medesimo schema, una medesima architettura,
basata sul modello di macchina astratta denominato macchina di Von Neumann (dal nome del grande
matematico che ne è stata l'autore agli inizi degli anni cinquanta). Tale architettura è composta dalle
seguenti parti: una o più unità, o "periferiche", di ingresso (input) dei dati; una unità centrale di calcolo; una
memoria di massa; uno o più unità di uscita (output) dei dati. Le unità di input/output hanno la funzione di
istituire il contatto comunicativo con gli agenti esterni (uomo o altre macchine), e dunque sono le interfacce
tra elaboratore e mondo esterno. Le unità di input, in particolare, svolgono la funzione di ricevere le
informazioni dall'esterno e di codificarle in una struttura fisica e formale adeguata alle esigenze elaborative
dell'unità centrale. In sostanza, poiché l'unità centrale di un elaboratore è in grado, in ultima analisi, di
"comprendere" e manipolare solo i due simboli della notazione numerica binaria, le unità di input hanno la
funzione di digitalizzare i dati in ingresso secondo una codifica binaria.
L'unica unità di input per la digitalizzazione di testi è stata, per molti anni, la tastiera di consolle.
Attualmente esistono una serie di strumenti che consentono l'immissione di notevoli quantità di dati
testuali e la loro successiva riproduzione su supporti informatici in grado di contenere enormi quantità di
dati. La tecnologia di gran lunga più efficiente a disposizione dei "copisti elettronici", almeno per testi
stampati in epoche non anteriori al secolo scorso, è l'accoppiamento di un dispositivo di input denominato
scanner con un software OCR (Optical Character Recognition). Il primo funziona tecnicamente in maniera simile
ad una fotocopiatrice, ma produce una immagine digitale facsimile della pagina cartacea di origine,
Cfr. G. GENETTE, Soglie, cit. p. 290 e segg. Una corretta memorizzazione di questi elementi peritestuali potrebbe
rappresentare una valida base per approfondire lo studio di una zona del testo che solo da pochi anni sta ricevendo l'attenzione di
alcuni studiosi, malgrado l'importanza che essa riveste, almeno nel rapporto che ogni lettore "comune" stabilisce con il testo. Una
ricerca estesa ad un corpus di testi potrebbe portare alla definizione di una vera e propria "semiotica delle strutture tipografiche",
nel senso dello studio del ruolo che la costituzione tipografica del testo materialmente inteso ha nel processo di interpretazione del
macro-enunciato in esso veicolato e nella individuazione di una semantica degli elementi tipografici ed iconici.
12
ottenuta sovrapponendo una griglia virtuale fittissima alla superficie riprodotta, ed attribuendo valori
numerici ai toni di luce o di colore rilevati in ciascuna cella. Gli OCR invece sono dei complicati
programmi in grado di interpretare l'output dello scanner e di individuare i caratteri alfanumerici contenuti
nell'immagine elettronica della pagina. Naturalmente il risultato di questo trattamento, anche nel caso di
strumenti di alto livello, non è completamente affidabile, e necessita di accurate revisioni (la fase più
dolorosa e costosa della memorizzazione di un testo). Esistono anche dei dispositivi in grado di
digitalizzare automaticamente microfilm o negativi fotografici, molto utili per la creazione di archivi di
immagini digitali di testi manoscritti o di incunaboli. Tuttavia bisogna ricordare che le tecnologie di
riconoscimento automatico dei caratteri attualmente disponibili non sono in grado di confrontarsi, con
risultati soddisfacenti, con questo tipo di sorgenti, o lo sono in misura molto limitata.
Anche per quanto attiene ai supporti elettronici digitali, e dunque dei canali di diffusione dei testi in
MRF, sono disponibili oggi strumenti dalle notevoli capacità come i supporti ottici, o CD-ROM, che
possono contenere fino a 670 milioni di caratteri in un disco di dieci centimetri di diametro. Ma
indubbiamente il fatto che potrà determinare un forte impulso alla produzione di archivi testuali digitali è
la diffusione delle reti telematiche, ed in particolare delle rete Internet, che, almeno in ambito accademico,
permettono di creare archivi e basi dati testuali con costi di gestione e di diffusione molto bassi, o quasi
nulli. Ma a questo tema è dedicato l'ultimo capitolo del presente lavoro.
IL GRADO ZERO DELLA RAPPRESENTAZIONE INFORMATICA DEI TESTI: LA TAVOLE DEI
CARATTERI
Fino alla fine degli anni cinquanta la comunicazione tra operatore umano ed elaboratore richiedeva
generalmente l'immissione di dati e istruzioni direttamente in codice binario, cosa che non creava grandi
difficoltà per i tipici problemi di calcolo in cui erano impiegati. Ma poiché i computer non sono solo
calcolatori numerici, ma macchine universali in grado di manipolare simboli secondo regole per realizzare
algoritmi (non necessariamente interpretabili semanticamente come calcoli numerici), è sorta l'esigenza di
rappresentare in maniera più efficiente ed amichevole (per gli esseri umani, ovviamente) nella memoria
degli elaboratori segni come quelli delle notazioni alfabetiche. Le macchine informatiche possono
manipolare solo i due simboli della notazione numerica binaria, ma possono ripeterli in sequenze grandi
quanto si vuole. Per rappresentare caratteri basta dunque definire una corrispondenza biunivoca, che
associ il repertorio ordinato di simboli dello schema notazionale di un determinato sistema di scrittura (un
charachter set) ad una sequenza di codici numerici implementati a livello macchina in notazione binaria (un
code set). Tale tavola di corrispondenza viene chiamata Coded Charachter Set, insieme ordinato di caratteri
codificati (numericamente).
Nel corso degli anni, parallelamente allo sviluppo ed alla diffusione dell'informatica, sono state
elaborate numerose tavole di caratteri, basate su sequenze binarie di diversa lunghezza. La più nota e
diffusa tra queste è senza dubbio l'American Standard Code for Information Interchange (ASCII). Quest'ultimo è
il codice standard più diffuso tra le piattaforme hardware di tipo personal computer, e deve la sua fortuna alla
opzione nei suoi confronti fatta dalla maggior parte dei produttori. Il codice ASCII vero e proprio
consente di rappresentare 128 simboli, essendo formato da sequenze binarie di 7 bit (binary digit, cifre
binarie). Naturalmente (per ovvi motivi storici e commerciali) questo codice ha un charachter set basato
sull'alfabeto delle lingue anglosassoni, insieme ai più diffusi segni diacritici, e dunque non contiene
moltissimi caratteri usati dagli alfabeti latini e nordici (per non parlare degli alfabeti non latini).
I computer attuali tuttavia, consentono di utilizzare sequenze superiori alle sette cifre binarie per la
rappresentazione elettronica dell'informazione, e dunque la sequenza base è stata incrementata di un
elemento, portando le possibili disposizioni a 256. Però le nuove posizioni sono state "riempite" in
maniera diversificata dai vari produttori, determinando il proliferare di una famiglia di "pagine dei codici"
derivate dall'originale ASCII a 7 bit, ciascuna delle quali adattate ai vari alfabeti nazionali. Questa
proliferazione comporta una seria limitazione alla portabilità dei dati memorizzati tra ambienti software ed
hardware diversi, poiché le diverse pagine di codici associano le stesse sequenze binarie a caratteri o simboli
diversi. Per citare un esempio abbastanza comune, poiché si riferisce alle piattaforme personal attualmente
più diffuse, vi sono differenze tra la tavola di caratteri usata in ambiente DOS e quella usata in ambiente
Windows: questo significa che un file di testo viene visto in maniera diversa da due ambienti software che
girano sulla stessa macchina.
Per contrastare questa esplosione babelica di code sets, sono state definite alcune tavole standard da
parte della International Standardization Organization (ISO), tra le quali la più universale è quella denominata
ISO 646:1083 IRV, ricalcata a sua volta sullo standard internazionale di fatto, il codice ASCII a 7 bit.13
Attualmente è in fase di definizione in sede ISO un nuovo code set a 16 bit, denominato Unicode. La
potenzialità espressiva di questo codice (65536 posizioni disponibili) permetterà di rappresentare
pressoché tutti gli alfabeti delle lingue umane più diffuse. Tuttavia prima che il sistema Unicode possa
diffondersi ed essere integrato in tutte gli ambienti operativi standard occorreranno alcuni anni. Fino ad
allora l'unico code set in grado di garantire la massima portabilità rimarrà ancora il vecchio e limitato codice
ASCII.
LINGUAGGI EVOLUTI PER LA CODIFICA DEI TESTI
La codifica del testo basata sulle sole tavole dei codici, insieme ai limiti di portabilità e compatibilità,
comporta una ulteriore restrizione, di natura teorica: essa consente di rappresentare correttamente nella
memoria del computer solo la sequenza ordinata dei grafemi che costituiscono il testo, per i quali è
possibile reperire un corrispettivo nel set standard utilizzato dalla macchina. Ma un testo a stampa o un
manoscritto, come abbiamo visto sopra, contiene una serie di informazioni che vanno oltre alla mera
sequenza di caratteri costituente il testo stesso. Tali informazioni, veicolate da caratteristiche grafiche,
servono a determinare la struttura astratta del testo e ad individuare materialmente tali partizioni. Per non
parlare della rappresentazione del documento testuale, inteso come insieme di pratiche visuali ed iconiche,
e che possono risultare di notevole interesse per talune ricerche, nonché come base per il lavoro di
edizione scientifica del testo stesso. Occorre dunque individuare delle adeguate metodologie informatiche
per rappresentare quanto più esaustivamente questi fenomeni, ovvero, per implementare adeguati modelli
informatici della realtà testuale e documentaria/iconica del testo.
La diffusione dei personal computer e le esigenze di elaborazione e formattazione dei testi in formato
elettronico ha portato allo sviluppo di molteplici sistemi orientati alla creazione e manipolazione di testi,
che vanno dai word-processors ai più sofisticati sistemi di desktop-publishing (che consentono di controllare
tutto il processo di produzione, composizione e formattazione dei testi ai fini editoriali). Dal punto di vista
strettamente informatico i sistemi di text-processing si possono dividere in due classi, che corrispondono a
due diverse impostazioni ingegneristiche:
1) sistemi di tipo WYSIWIG (What You See Is What You Get) con formato proprietario;
2) sistemi basati su markup language.
I sistemi di tipo WYSIWYG con formato proprietario fondono le potenzialità del trattamento dei testi
con le capacità grafiche raggiunte dalle attuali strumentazioni hardware e dagli ambienti con interfacce
grafiche (come il noto Windows, il Macintosh OS, la Workplace Shell OS/2, o X-windows su Unix). La differenza
essenziale dal punto di vista della struttura informatica dei dati è costituita dal fatto che quasi tutti i sistemi
di scrittura ed impaginazione WYSIWYG utilizzano, ai fini della rappresentazione del testo, dei caratteri di
controllo invisibili (in genere i primi trentadue delle tavole dei codici standard), immessi dentro il file di
testo, che rendono il file leggibile esclusivamente dal sistema da cui è stato generato, e limitandone
completamente la portabilità. I sistemi di questo tipo, su cui si basano la maggior parte dei word-processor
commerciali non sono dunque adatti alla codifica scientifica di un testo.
I markup language, invece, si basano su un insieme di istruzioni facente parte di un vero e proprio
linguaggio (nel senso informatico) orientato alla descrizione dei fenomeni di strutturazione, composizione
o impaginazione del testo. I comandi sono costituiti da sequenze di caratteri ASCII visibili,14 e vengono
In realtà il codice ASCII standard differisce dall'ISO 646 per un carattere' il simbolo del dollaro ($), che nello standard ISO è
rimpiazzato dal segno di currency.
13
Il codice ASCII riserva le prime trentadue posizioni per codificare caratteri di controllo non visibili a video o su stampata, che
vengono interpretati dal computer come istruzioni o comandi (ad esempio il carattere di inizio file, o di fine riga). Naturalmente
ogni sistema operativo o software interpreta questi caratteri in maniera diversa. Solo le successive posizioni codificano i caratteri
visibili.
14
immessi dentro il file del testo secondo un determinata sintassi, immediatamente accanto alla sequenza di
caratteri a cui si riferiscono. L'idea di markup per il testo elettronico deriva dai simboli che autori e grafici
utilizzano, nella stampa tradizionale, per indicare al compositore ed al tipografo come trattare dal punto di
vista grafico il testo, in relazione alle diverse funzioni testuali svolte da ciascuna sezione del testo stesso. Si
possono distinguere due classi di linguaggi di markup che differiscono per la tipologia, ovvero per la
semantica delle istruzioni utilizzate:
1) markup specifico;
2) markup generico.
Il primo tipo (i cui testimoni più illustri sono linguaggi come lo Script, il TROFF, il TEX) consiste di un
insieme di istruzioni operative che indicano "localmente" la struttura tipografica e compositiva della pagina
(il lay-out), le spaziature, l'interlineatura, le caratteristiche dei font, modificando questi parametri
direttamente per le porzioni di testo a cui si riferiscono. Questo tipo di marcatura è detta anche markup
procedurale, in quanto indica alla macchina le procedure di trattamento cui deve sottoporre la sequenza di
caratteri al momento della stampa Evidentemente un linguaggio di codifica procedurale comporta uno
stretto legame con il software di trattamento del testo che è in grado di interpretarlo, e dunque limita la
portabilità del testo codificato tra ambienti diversi, e peraltro non è facilmente interpretabile da un "lettore
umano". Inoltre, le istruzioni di formattazione di un testo di i questo tipo sono fissate una volta per tutte:
se si intende modificare l'aspetto stampato del testo occorre modificare tutte le istruzioni di codifica.
Ma, oltre a questi limiti di carattere pratico, il markup procedurale ne presenta anche uno sostanziale.
Infatti in un documento testuale la composizione o aspetto fisico del manufatto rappresenta una
realizzazione di una struttura astratta del testo verbale, che costituisce un bagaglio informativo essenziale
per comprendere correttamente lo stesso testo. Si pensi alla importanza della divisioni di un testo in
sezioni o capitoli che organizzano il discorso testuale ed indicano al lettore il ritmo della lettura. In una
codifica procedurale questa informazione non viene rappresentata in quanto tale, e dunque è necessario,
per accedervi, conoscere esattamente come è stata composta tipograficamente.
I linguaggi basati su un generic markup sono costituiti da un insieme di marcatori (tags), che, immessi nel
testo, indicano non le caratteristiche fisiche, ma la funzione assolta dal blocco di testo cui si riferiscono. A
ciascun blocco viene associato un marcatore che lo definisce come titolo, paragrafo, nota, citazione, etc., senza
preoccuparsi di come tali elementi del testo appariranno fisicamente. In sostanza la descrizione fornita da
un generic markup language codifica la struttura di un testo e non l'aspetto di un documento. Poiché
permettono di dichiarare a quale tipo di struttura appartiene una certa porzione del testo, questi linguaggi
vengono anche definiti markup dichiarativi.
LO STANDARD GENERALIZED MARKUP LANGUAGE
Tra i linguaggi che si iscrivono nel paradigma della codifica dichiarativa ha assunto una particolare
importanza lo Standard Generalized markup Language, sviluppato da Charles Goldfarb, che è diventato lo
standard ISO ufficiale per la creazione di testi in MRF.15
Lo SGML si basa su un sistema di codifica dichiarativa. Esso, infatti, consente la definizione di un
insieme di marcatori che descrivono la struttura logica di un testo piuttosto che la sua forma grafica. Tale
Il testo ufficiale dello standard ISO, commentato dallo stesso inventore del linguaggio, è nel capitale C.F. GOLDFARB, The
SGML Handbook, Oxford, Oxford University Press, 1990. Manuali introduttivi di buon livello sono: E. VAN HERWIJNEN,
Practical SGML, Boston/Dordrecht/London, Kluwer Academic Publishers, 1994 2; M. BRYAN, SGML: An Author's Guide to the
Standard Generalized Markup Language, Wokingham/Reading/New York, Addison-Wesley, 1988. Una breve introduzione per le
applicazioni in ambito umanistico è L. BURNARD, What is SGML and How Does it. Help?, in GREENSTEIN (a cura di), Modelling
Historical Data: Towards a Standard for Encoding and Exchanging Machine-Readable Texts, St. Katharinen, Max-Planck-Institut fur
Geschichte, 1991 (Halbgrane Reihe zur Historischen Fachinformatik, Serie A, Historische Quellenkunden), pp. 65-79. Moltissime
informazioni, materiali e saggi su SGML sono naturalmente reperibili su Internet. Non è possibile qui dare un elenco completo
dei siti dedicati, ma sicuramente il più completo è la SGML Web Page di Robin Cover, disponibile su WWW all'indirizzo
http://www.sil.org/sgml.
15
insieme individua una classe di documenti testuali che presentano le medesime caratteristiche strutturali.
Questa astrazione costituisce il nucleo e la potenza del linguaggio: grazie ad essa lo SGML diventa, più che
un linguaggio, un metalinguaggio che provvede le regole per costruire infiniti linguaggi di codifica di testi.
Ciascuno di questi corrisponde ad un modello di testo o di un insieme di testi, realizzato in base ad un
dato punto di vista, o interesse specifico di trattamento.
La struttura astratta del testo nello SGML viene specificata definendo gli elementi che la costituiscono
e le relazioni che tra loro intercorrono, ed attribuendo ad ogni elemento un singolo marcatore, in una
tabella denominata Document Type Definition (DTD). Il concetto di Document Type Definition è il cuore
dello SGML. Lo standard non fornisce alcuna prescrizione riguardo la tipologia, la quantità e il nome dei
marcatori, ma esclusivamente precise regole sintattiche su come definire un insieme di marcatori
all'interno di una DTD: attraverso queste regole formali, è possibile definire un linguaggio di codifica
adeguato per un certa classe di documenti e rispondente ad esigenze particolari di rappresentazione. La
portabilità ed universalità della codifica è garantita dalla diffusione della DTD insieme al testo stesso. Al
fine di garantire la massima portabilità dei testi, lo SGML permette di codificare testi e marcatori usando
esclusivamente il set di caratteri ISO 646, e fornisce una particolare sintassi per definire sequenze di
caratteri, le entità, che univocamente rappresentano i caratteri non contenuti nel code set. Nella Document
Type Definition, dunque, sono elencati e definiti tutti i termini che costituiscono un linguaggio di codifica
coerente, e le relazioni tra essi:
1) i marcatori per gli elementi strutturali e funzionali (elements) permessi nei testi di una certa
classe con i loro nomi;
2) il contenuto di ciascun elemento (content model), ovvero quali altri elementi possono
apparire all'interno di un certo elemento, con quale ordine e con quale frequenza;
3) i marcatori per gli attributi (attributes) che possono essere assegnati a ogni elemento;
4) i simboli per le entità (entity) che possono occorrere come contenuto del documento e che
possono rappresentare dai caratteri che non esistono nella dotazione del code set
prescelto per la codifica, fino ad interi file (ad esempio possono riferirsi a file grafici, la
cui notazione informatica è evidentemente diversa da quella del file di testo).
È possibile codificare un testo sia facendo riferimento ad una DTD già esistente e pubblicamente
disponibile, sia sviluppando nuove DTD atte a descrivere ogni tipo di documento. In entrambi i casi
occorre avere un certa conoscenza della sintassi e delle regole che lo SGML prescrive per la descrizione
della struttura del documento testuale. Essa si basa sull'idea che un documento ha una organizzazione
astratta descrivibile attraverso una struttura gerarchica. Tale struttura astratta del documento, corrisponde
ad un grafo ad albero in cui:
1) a ciascun nodo corrisponde un elemento;
2) ai rami uscenti da ogni nodo corrispondono le relazioni tra elementi e sotto-elementi ad
un dato livello;
3) alle foglie corrispondono gli elementi finali non strutturali (normalmente i caratteri del
testo).
Le relazioni tra elementi possono essere relazioni di inclusione, di ordine e di ricorrenza: un elemento
paragrafo è incluso in un elemento capitolo e può ricorre più volte, un elemento introduzione deve
precedere un elemento capitolo, etc. Un esempio di albero gerarchico per un semplice testo è il seguente:
[inserire immagine]
Il nodo radice è naturalmente il testo stesso; esso è composto da una eventuale introduzione, seguita
da un numero imprecisato di capitoli; a loro volta i capitoli sono composti da un titolo seguito da uno o
più paragrafi. I nodi terminali dell'albero, o foglie, contengono infine le stringhe di caratteri che
costituiscono il testo stesso. Questa struttura dunque non consente l'introduzione di paragrafi all'interno
dell'elemento testo e dell'elemento introduzione. Quando si attua la codifica di un testo ciò comporta, ad
esempio, che non possiamo inserire il marcatore per i paragrafi immediatamente dopo il marcatore del
testo, bensì solo dopo il marcatore per un elemento capitolo.
Oltre a facilitare l'ingegnerizzazione informatica del software, questo tipo di sintassi consente di
utilizzare il computer su dati testuali in maniera molto più potente che su una base dati di tipo full-text
completamente non strutturata. Si può dire che lo SGML e l'idea dei documenti strutturati si pongono a
mezza strada tra i documenti full-text, adatti a rappresentare dati di tipo testuale ma completamente privi
di struttura, e dunque con conseguenti difficoltà in fase di information retrieval e di analisi, e le basi-dati
strutturate, relazionali o gerarchiche, molto potenti e veloci sul piano dell'information retrieval, ma troppo
rigide (nonché esigenti sul piano dell'occupazione di spazio) per dati di tipo testuale.
ALCUNE IMPLEMENTAZIONI DELLO SGML
Lo SGML, come visto, rappresenta un potente strumento per progettare linguaggi di codifica testuale
completi e formalmente consistenti, in grado di sopportare numerose operazioni di text-processing, pur
mantenendo, attraverso il riferimento ad un dato Document Type, di cui ogni singolo documento elettronico
rappresenta una istanza, la massima portabilità. Tuttavia, proprio per garantire questa estrema generalità, lo
SGML non provvede alla definizione di un set di marcatori specifici, lasciando agli utenti la massima libertà
semantica nella progettazione di Document Type Definition. Questo ha determinato la diffusione di molteplici
implementazioni SGML, ciascuna orientata alla soluzione di particolari esigenze di rappresentazione
informatica di informazioni testuali.
Attualmente, la più diffusa di queste implementazioni è lo HyperText markup Language (HTML),16 il
formato utilizzato per la creazione di documenti su World Wide Web, il sottoinsieme ipermediale della rete
Internet (malgrado questo legame con SGML sia sconosciuto alla maggioranza dei suoi stessi utilizzatori).
Lo HTML è stato sviluppato nei laboratori del CERN di Ginevra alla fine degli anni ottanta. Nella sua
versione iniziale esso si presentava come un linguaggio alquanto limitato, orientato strettamente alla
distribuzione su rete di documenti organizzati in struttura ipertestuale e moderatamente ipermediale. Le
codifiche HTML infatti dovevano essere interpretabili senza problemi da specifici applicativi client in grado
di reperire i documenti sorgenti in rete e presentarli all'utente. Questo stretto legame con le applicazioni
finali ha determinato dei notevoli limiti sia nella potenza espressiva del linguaggio, che nella sua
consistenza strutturale. Solo in parte questi limiti sono stati superati nella versione 2.
La versione più recente del linguaggio, denominata HTML 3 (tuttora non rilasciata dalla commissione
che definisce i protocolli ufficiali per Internet), presenta un notevole innalzamento di complessità e un
sostanziale avvicinamento al carattere strutturato tipico delle applicazioni SGML, pur potenziando anche
le risorse di controllo formale dedicate alla creazione di documenti elettronici su rete geografica, che è lo
scopo per il quale è nato HTML. Tuttavia anche in questa versione (peraltro "inquinata" da una serie di
modifiche di fatto sviluppate da una delle case produttrici di software di rete, già integrate nel prodotto di
quella casa senza una validazione in sede ufficiale) vi sono carenze che limitano l'uso di HTML come vero
e proprio linguaggio per la codifica di complessi fenomeni testuali, quali quelli che si presentano per la
realizzazione di vere e proprie edizioni elettroniche di testi. L'aspetto interessante di questo linguaggio è
legato alla sua diffusione su Internet, ed alla massiccia presenza di software in grado di interpretarlo
(malgrado essi non siano dotati di adeguate funzionalità di ricerca e di analisi dei testi stessi), che rende
immediatamente possibile la realizzazione di banche dati testuali facilmente accessibili da chiunque abbia
un accesso alla rete Internet.
Tra le altre applicazioni SGML occorre ricordare la cosiddetta architettura CALS (Computer-aided
Acquisition and Logistics Support).17 Essa consiste di una serie di specifiche definite dal Department of Defense
16
Informazioni su HTML sono reperibili su Internet, sul server ufficiale del progetto WWW all'indirizzo http://www.w3.org.
17
Cfr. J. SMITH, An Introduction to CALS: The Strategy and the Standards, London, Technology Appraisals Ltd, 1990.
degli Stati Uniti, al quale sono tenute a conformarsi tutte le imprese che vendono tecnologie al governo
degli Stati Uniti nella realizzazione della documentazione tecnica su supporto informatico dei loro
prodotti. Le specifiche del CALS definiscono uno standard per ogni media elettronico, e nella parte
testuale si basano sullo SGML, che rappresenta anche l'ambiente di raccordo per tutta l'architettura. Un
ulteriore esempio di applicazione SGML in campo industriale è rappresentato dalla DTD sviluppato dalla
Association of American Publishers, denominato DocBook DTD, che costituisce il formato ufficiale adottato in
tutto il processo produttivo dell'industria editoriale statunitense.18
LA TEXT ENCODING INITIATIVE: UNA SOLUZIONE PER LE SCIENZE UMANE
Anche nel campo informatico umanistico si è avvertita l'esigenza di rispondere adeguatamente ai
problemi di rappresentazione informatica dei testi e dei documenti, e di definire uno standard per la
rappresentazione di testi in MRF, che garantisse sia la validità scientifica della codifica che la
intercambiabilità e la portabilità dei testi. Questa esigenza si è resa evidente con la diffusione delle
tecnologie informatiche e telematiche nel dominio degli studi umanistici.
A partire dal 1987 le tre maggiori associazioni mondiali di studiosi di scienze umane attraverso
metodologie informatiche, la Association for Computers and the Humanities (ACH), la Association for
Computational Linguistics (ACL) e la Association for Literary and Linguistic Computing (ALLC), hanno avviato un
progetto internazionale per sviluppare un modello di codifica normalizzato che mettesse ordine nella
intricata congerie di modelli e linguaggi di rappresentazione dell'informazione testuale in formato
elettronico. Questo progetto è stato denominato Text Encoding Initiative (TEI), e ad esso hanno partecipato
un gruppo di studiosi provenienti da diversi paesi, coordinati da C. M. Sperberg McQueen e L. Burnard.19
La finalità della TEI è quella di definire uno standard per la memorizzazione di testi specificamente
orientato alla ricerca in campo umanistico, come affermano chiaramente gli estensori del documento finale
del progetto:
Because of its roots in the humanistic research community, the TEI scheme is driven by its original goal of
serving the needs of research, and is therefore committed to providing a maximum of comprehensibility,
flexibility, and extensibility. More specific design goals of the TEI have been that the Guidelines should:
— provide a standard format for data interchange
— provide guidance for encoding of texts in this format
— support the encoding of all kinds of features of all kinds of texts studied by researchers
— be application independent.20
Per conseguire tali obiettivi, gli esperti della TEI hanno assunto come linguaggio per la descrizione di
documenti lo Standard Generalized markup Language, e come code set di riferimento la ISO 646. Il
lavoro svolto dalle varie commissioni del progetto a partire dal 1989 ha portato alla definizione di una
vasta e complessa Document Type Definition, le cui specifiche provvisorie sono state pubblicate per la
prima volta nel 1991 con il titolo Guidelines for Electronic Text Encoding and Interchange (TEI P1). Il lavoro
della TEI ha poi visto successive revisioni che hanno portato alla pubblicazione di altri due manuali: uno
nel 1992, TEIP2, nel quale la struttura della DTD è stata notevolmente rivista; ed uno nel 1994 intitolato
TEIP3. A partire da questa seconda revisione il manuale della TEI non ha più la qualifica di provvisorio,
essendo ormai definitiva la struttura della DTD per quel che riguarda il lavoro pregresso.
18 Cfr. ASSOCIATION OF AMERICAN PUBIISHERS, Author's Guide to Electronic Manuscript Preparation and markup, November 1987 e
Reference Manual on Electronic Manuscript Preparation and markup, November 1987.
19 ACH/ACL/ALLC, Guidelines for Electronic Text Encoding and Interchange (TEI P3), a cura di C.M. SPERBERG MCQUEEN e L.
BURNARD, Chicago, 1994, 2 volumi.
20
ACH/ACL/ALLC, Guidelines, cit., Part I, par. 1.2.1. "Design Principles of the TEI".
I principi che hanno orientato la commissione di sviluppo della TEI nel definire la struttura della DTD
sono fortemente aderenti ai fondamenti teorico-formali dello SGML, ovvero la predilezione per un
markup di tipo generico-dichiarativo, piuttosto che di tipo specifico. Il modello descrittivo dei testi è
basato su una formalizzazione delle convenzioni della produzione di documenti testuali che sono state
definite a partire dalla diffusione della stampa, e che sono state codificate fino al punto di divenire un vero
e proprio schema di argomentazione (la divisione in capitoli, parti, paragrafi, etc., è un tipico esempio di
questo fenomeno di determinazione dialettica tra modelli del pensiero e schemi imposti dagli strumenti di
produzione intellettuale).
Questa predilezione per una codifica di tipo dichiarativo strutturale è stata rispettata nella maggior
parte dei casi, pur osservando che essa comporta in molti casi l'intervento soggettivo dello studioso che
effettua la codifica, il quale deve interpretare la funzione delle varie strutture fisiche tipografiche (o
manoscritte) per essere in grado di usare i marcatori degli elementi previsti nella DTD della TEI. Tuttavia
lo schema prevede anche dei marcatori più specifici o procedurali, utilizzabili quando la scelta della
codifica dichiarativa non è praticabile senza introdurre forti problemi interpretativi, o quando le esigenze
di ricerca richiedono una forte aderenza del testo elettronico al suo originale cartaceo. Sono previste,
inoltre, molte strutture adeguate alla codifica tè, di fenomeni testuali complessi, quali la trascrizione di
fonti manoscritte, la pratica ecdotica, l'analisi linguistica e strutturale del testo, la creazione di corpus,
nonché la realizzazione di complesse strutture ipertestuali.
La TEI infatti provvede uno schema generale, orientato al dominio umanistico, ma non rigidamente
determinato. Basti pensare che gli elementi definiti nella DTD sono oltre quattrocento, che molte
caratteristiche strutturali di un testo sono provviste di molteplici possibilità di codifica, e che, infine, lo
schema prevede ampie possibilità di modifiche locali e di estensioni, per adattarsi ad esigenze particolari di
memorizzazione testuale. Per ottenere tale applicabilità ad ampio raggio, coniugata ad una agevole
possibilità di revisione si è scelto di dividere logicamente la DTD in molteplici frammenti, corrispondenti
ad altrettanti tipologie astratte di testi (testo in prosa, testo poetico, testo drammaturgico, fonte
manoscritta, etc.) o di obiettivi di ricerca (codifica a fini editoriali, a fini di analisi linguistica, tematica,
narratologica, etc.), organizzati in maniera modulare e gerarchica. L'utente che attua la codifica ha dunque
la possibilità di riferirsi al frammento che lo interessa, includendo opportune dichiarazioni all'inizio del
documento elettronico. Un sottoinsieme limitato della TEI, denominato TEI lite, è stato rilasciato
nell'estate del 1995 per facilitare la diffusione del progetto presso gli utenti senza richiedere lo studio
dell'intero schema (alquanto complesso). Esso permette la creazione di documenti TEI-compliant
(compatibili, cioè, con l'intero schema) in maniera rapida, e si presta facilmente allo sviluppo di
applicazioni.
Attualmente le maggiori istituzioni di ricerca a livello mondiale nel campo informatico umanistico
hanno assunto la Text Encoding Initiative come linguaggio di riferimento per la creazione di banche dati
testuali a fini di ricerca scientifica. La complessità, l'estensibilità e la diffusione, unitamente alla sua origine
ed evoluzione interna all'ambito umanistico, ne fanno infatti il più valido strumento di codifica per la
creazione di testi elettronici, sia a puro fine editoriale, che come supporto per l'analisi informatizzata dei
testi.
BA N C H E DA T I T E S T UA L I E B I B L I OT E C H E V I RT UA L I : R E A LT À E P R O S P E T T I V E
Chiudiamo questa rassegna sul tema dei testi elettronici con alcune brevi note relative ai "luoghi" in
cui i testi elettronici trovano collocazione, le banche dati testuali. Per banca dati testuali intendiamo, più
precisamente, un archivio su supporto informatico che contiene un insieme di testi in MRF. Possiamo
distinguere due tipologie di banche dati testuali sulla base della modalità di accesso e di consultazione dei
dati in esse contenuti.21 Il primo tipo è quello delle banche dati testuali accessibili in modo "locale" su
Questo aspetto della nostra classificazione non corrisponde ad una divisione delle banche dati in base al supporto hardware a
cui esse sono archiviate, anche se spesso si ha l'idea che una banca dati locale debba essere veicolata su supporto ottici come i
CD-ROM.
21
singole stazioni di lavoro; ne sono esemplari la Letteratura Italiana Zanichelli (LIZ) o il Thesaurus Linguae
Grecae (TLG). Il supporto più diffuso per la distribuzione di questi archivi elettronici, allo stato attuale, è il
CD-ROM, e i materiali contenuti nella banca dati sono generalmente memorizzati nei formati proprietari
delle particolari applicazioni software con cui possono essere utilizzati (generalmente si tratta di
applicazioni orientate alla indicizzazione di testi, e sistemi di full-text retrieval).
Il secondo tipo è quello delle banche dati testuali accessibili da stazioni di lavoro "remote" rispetto a
quella in cui i dati sono contenuti, attraverso canali telematici. Queste banche dati, che possiamo definire
online, mutuando la terminologia del dominio telematico, a loro volta si dividono in due categorie:
1) semplici archivi "passivi" dai quali l'utente può prelevare testi memorizzati in formato
testuale (di norma in base alla code page ASCII) o in formati proprietari, o testi codificati
con opportuni linguaggi di marcatura (come le varie implementazioni SGML);
2) banche dati testuali consultabili realmente online in tempo reale, eventualmente dotate di
strumenti di text-processing e information retrieval.
Attualmente, grazie alla tecnologia World Wide Web, l'interfaccia ipermediale di Internet, questo tipo di
banche dati testuali consente di preservare, almeno in parte, gli aspetti grafico-visuali del testo, ma
presenta a sua volta una serie di problemi. In primo luogo la leggibilità di un testo su schermo è, allo stato
attuale, scarsamente soddisfacente e non prolungabile per i tempi di lettura necessari alla consultazione o
lettura di interi testi.22 D'altra parte, da un punto di vista scientifico, la codifica utilizzata in ambiente Web,
lo HTML, non consente una adeguata rappresentazione di fenomeni testuali complessi. Una interessante
prospettiva si apre con gli sviluppi tecnici previsti per la diffusione di documenti su rete Internet, che
comprendono una migrazione verso la completa compatibilità con lo SGML. Le applicazioni SGML, fino
ad ora, sono state scarsamente diffuse a causa dell'ingente costo degli applicativi software in grado di
sfruttarne le caratteristiche (Dynatext, Explorer, Cyberleaf, PAT sono i rappresentanti più noti di questa
classe di strumenti). Si può prevedere che la sua inclusione tra i protocolli standard su Internet determini
una inversione di tendenza e faciliti lo sviluppo di software a costi decisamente più accessibili. A conferma
di questa prospettiva cominciano ad affacciarsi sul mercato degli strumenti SGML general purpose a basso
costo, in grado di ricevere dalla rete un qualsiasi documento SGML, con associato un foglio di stile, e di
"presentarlo" in modalità grafica multimediale.23
L'evoluzione delle tecnologie telematiche e la loro vasta diffusione in ambito umanistico (nonché le
risorse a disposizione delle istituzioni universitarie, specialmente negli Stati Uniti), hanno determinato, in
anni recenti, una notevole espansione delle banche dati testuali online, ed hanno stimolato una grande
quantità di iniziative e di sperimentazioni. Grandi biblioteche hanno già avviato progetti per l'archiviazione
elettronica del loro patrimonio librario; tra le altre ricordiamo la Library of Congress (il cui catalogo è
consultabile su Internet già da alcuni anni), la Biblioteca Nazionale di Francia, la Biblioteca Vaticana (che ha da
poco avviato un progetto, in collaborazione con la IBM, per rendere disponibili le immagini digitalizzate di
tutti i suoi manoscritti). Naturalmente questi grandi progetti hanno tempi di realizzazione assai lunghi.
Tuttavia già oggi esistono molte banche dati che rendono liberamente disponibile un notevole patrimonio
testuale; si tratta di progetti realizzati sia da figure istituzionali che da associazioni private, e che sono tutti
nati nello spazio virtuale della rete Internet (a dimostrazione della sua enorme potenzialità come
strumento di diffusione dell'informazione e come laboratorio di un nuovo spazio comunicativo). Un
elenco completo di queste risorse è difficile da redigere, a causa del notevole ritmo di proliferazione,
Vanno inoltre considerati i costi di accesso per l'utente finale che, se non è possibile svolgere parte della consultazione offline,
possono essere molto alti, limitando la classe di utenza a chi è in grado di accedere alla rete Internet senza il pagamento dei costi
telefonici.
22
Ad esempio da pochi mesi la SoftQuad ha rilasciato due versioni, di cui una gratuita, di un browser SGML. Questo strumento
(il cui nome è Panorama, e che esiste anche in una versione commerciale) è dotato di caratteristiche di ricerca e di presentazione
notevolmente più avanzate rispetto ai normali browser HTML, e può costituire un vero e proprio punto di svolta nell'evoluzione
delle tecnologie di editoria elettronica su rete.
23
specialmente negli ultimi anni, e non rientra nello scopo di questo articolo. Ci limiteremo pertanto ad
alcuni esempi.
Iniziamo con i progetti sviluppati presso sedi universitarie e centri di ricerca istituzionali. Il progetto
che spicca per prestigio autorevolezza e tradizione (se di tradizione si può parlare in questo campo), è
l'Oxford Text Archive, realizzato dal centro informatico della Oxford University. Tutti i testi pubblicati
dall'OTA, in massima parte collocabili nell'area culturale anglosassone, sono codificati in formato
SGML/TEI, e rappresentano una grande risorsa di carattere scientifico. L'OTA, oltre a mettere
liberamente a disposizione una notevole quantità di testi attraverso la rete Internet, possiede anche una
base dati testuale non pubblica, a cui possono avere accesso solo localmente ricercatori e studiosi. Negli
Stati Uniti vi sono molte iniziative in ambito accademico volte alla creazione di archivi di testi elettronici
con finalità di ricerca. Il Center for Electronic Texts in the Humanities (CETH), fondato dalle università
statunitensi di Rutgers e di Princeton con lo scopo di coordinare le ricerche e gli investimenti
nell'utilizzazione dei testi elettronici in ambito umanistico, sta realizzando una grande biblioteca virtuale di
testi della letteratura anglosassone in formato SGML, e cura anche un catalogo di testi elettronici (Rutgers
Inventory of Electronic Texts in the Humanities). Molto simili sono gli scopi dello University of Virginia Electronic
Text Center, dove è possibile consultare e fare ricerche su archivi testuali in formato SGML in ambiente
Web, tra i quali il Modern English Collection e lo English Poetry Full-text Database. Molto importante è anche lo
Institute for Advanced Technology in the Humanities (IATH), con sede presso la University of Virginia di
Charlottesville, uno dei maggiori centri di ricerca per l'informatica umanistica, che supporta diversi
progetti quali il Rossetti Archive, dedicato al pittore e poeta prerafaelita, nonché una importante rivista
scientifica pubblicata interamente in formato elettronico «Postmodern Culture». Tra i grandi archivi
testuali in area anglosassone possiamo ancora ricordare lo Women Writers Project, sviluppato presso la
Brown University, che raccoglie testi della letteratura femminile inglese dal Trecento all'epoca vittoriana,
anche questo interamente in formato TEI e la Humanities Text Initiative con sede alla University of
Michigan. Per la letteratura francese invece è di grande importanza il progetto ARTFL (Project for American
and French Research on the Treasury of the French Language), sopportato dal Centre National de la Recherche
Scientifique e dalla University of Chicago, che permette la consultazione online di un database testuale
contenente oltre duemila testi sia letterari che non letterari, sui quali è possibile effettuare ricerche e spogli
lessicali (non è invece possibile prelevare i file contenenti i testi). Caratteristiche tecniche simili, infine,
sono presentate dal Dartmouth Dante Project, curato da Robert Hollander, che, come si evince dal nome, è
dedicato specificamente agli studi danteschi. Il database contiene allo stato attuale, insieme all'opera omnia
del poeta, i testi di tutti i commenti danteschi redatti fino al nostro secolo.24
Accanto a queste iniziative istituzionali, esistono una serie di progetti, realizzati e curati da
organizzazioni ed associazioni private e volontarie. Le banche dati testuali realizzate da queste
organizzazioni mettono a disposizione archivi di testi in formato ASCII standard prelevabili liberamente
tramite il protocollo FTP, che poi l'utente potrà utilizzare sulla propria stazione di lavoro. Questa scelta si
presenta indubbiamente come la più efficiente per iniziative che non godono di fondi e finanziamenti
come quelle accademiche, ma presenta alcuni problemi di carattere scientifico. In primo luogo i testi non
sempre hanno un grado di affidabilità filologica elevato; in secondo luogo, la scelta del semplice codice
ASCII come linguaggio per la codifica dei testi comporta tutte le carenze che abbiamo evidenziato
precedentemente dal punto di vista della rappresentazione corretta ed esaustiva delle informazioni testuali
presenti nel testo di origine, pur se permette di garantire un grado di portabilità assai elevato dei dati stessi.
Tuttavia si tratta di iniziative che, basandosi sullo sforzo volontario di moltissime persone, possono avere
L'OTA è raggiungibile all'indirizzo http://ota.ox.ac.ul/TEI/ota.html. Il CETH e il Rutgers Inventory of Electronic Texts in
the Humanities hanno invece l'indirizzo http://cethmac.princeton.edu. Un elenco ragionato con gli indirizzi e collegamenti
attivi ai siti che ospitano questi ed altri progetti di basi dati testuali che utilizzano tecnologie SGML, è reperibile su Internet
all'indirizzo
http://ww.sil.org/sgml/acadapps.html.
L'indirizzo
del
progetto
ARTFL
è
http://tuna.uchicago.edu/ARTFL.htm. Sul Dartmouth Dante Project si veda R. HOLLANDER, Il Dartmouth Dante Project, in
C. LEONARDI - M. MORELLI - F. SANTI (a cura di), Macchine per leggere, cit., pp. 83-99; la banca dati è raggiungibile
all'indirizzo telnet baker.dartmouth.edu.
24
notevoli ritmi di crescita, e che già oggi mettono a disposizione una notevole mole di materiale altrimenti
inaccessibile ad un vasto numero di utenti.25
La più nota, ed anche la prima in assoluto, di queste banche dati testuali è il Progetto Gutenberg. Questo
progetto, dedicato alla letteratura anglosassone, è nato per iniziativa di Michael Hart nel 1971. Attualmente
conta oltre 250 testi, e una notevole quantità di collaboratori che hanno l'obiettivo di raggiungere i mille
testi entro la fine del millennio. Tra i testi in esso contenuti vi sono i classici della letteratura inglese, come
Shakespeare, Milton e Melville, ma anche la Bibbia, ed alcune opere di consultazione. Sulla spinta del
capostipite Gutenberg, sono nati una serie di progetti simili, dedicati ad altre letterature nazionali:
l'omonimo Project Gutenberg per la letteratura tedesca, il progetto Runenberg per le letterature scandinave, il
progetto Cervantes per la letteratura spagnola, il progetto ABU (Association des Bibliophiles Universels, nome
anche dell'associazione che lo cura, tratto dal romanzo di Umberto Eco Il pendolo di Foucault) per la
letteratura francese. Anche per la letteratura italiana è attiva da alcuni anni una iniziativa simile, il Progetto
Manuzio, al quale collabora anche l'autore di questo lavoro. Il Progetto Manuzio è nato come biblioteca dei
classici della letteratura italiana, della quale conta attualmente oltre sessanta titoli (tra cui Dante, Boccaccio,
Manzoni, Svevo e Pirandello), ma sta evolvendo verso una forma di biblioteca generalista e di archivio
documentario storico.26
Questa breve e disomogenea rassegna, che non pretende assolutamente di essere esaustiva, ha lo
scopo di dare una idea sia delle esperienze già oggi concretamente praticabili, che delle prospettive aperte
dalle nuove tecnologie al mondo della ricerca umanistica, ed al contiguo mondo delle biblioteche. Gli
sviluppi della telematica, ed in primo luogo il fenomeno Internet, su cui non possiamo in questa sede
soffermarci, ha prodotto e sta producendo notevoli trasformazioni nella conduzione del lavoro scientifico,
anche in un settore generalmente conservatore e refrattario al contatto con la tecnologia, come quello degli
studi umanistici. La realizzazione di banche dati testuali online, lascia prefigurare una nuova forma della
diffusione e della consultazione del sapere: si può parlare, a questo proposito, di vere e proprie biblioteche
virtuali. Tuttavia, per evitare che il passaggio verso questo nuovo medium comporti perdita di
informazioni, per fare dei testi elettronici una vera e propria risorsa scientifica, per non incorrere, infine, in
rischi di rapida obsolescenza tecnologica degli archivi, è necessario individuare modelli e tecnologie
adeguati. Lo strumento che, allo stato attuale, risponde meglio a queste diverse esigenze è lo Standard
Generalized markup Language. Esso costituisce una potente e flessibile risorsa in grado, come abbiamo
cercato di mostrare, di facilitare l'introduzione dell'informatica nel mondo della ricerca umanistica, di
risolvere i problemi teorici implicati nella memorizzazione dei testi, e di realizzare biblioteche virtuali
corredate di validi strumenti di ricerca e di analisi.
Un aspetto problematico ulteriore per queste esperienze (ma da cui non sono esenti nemmeno le iniziative di carattere
accademico o istituzionale, laddove esistano) è quello giuridico: poiché i testi vengono distribuiti gratuitamente queste banche dati
sono vincolate dalle varie legislazioni sui diritti d'autore, legislazioni nate tutte nell'era del libro cartaceo.
25
L'indirizzo principale su Web del Project Gutenberg è http://jg.cso.uinc.edu/ PG/welcome.html; l'omonimo tedesco si trova
invece su Web all'indirizzo http://gutenberg.informatik.uni-hamburg.de/gutenb/home.htm la biblioteca di ABU
all'indirizzo http://web.cnam.fr/ABU/; il progetto Runenberg all'indirizzo http://www.lysator.liu.se/runeberg/Main.html ;
il progetto Cervantes è invece raggiungibile tramite il gopher infrs.mxl.cetys.mx; per quanto riguarda il Progetto Manuzio,
informazioni dettagliate sono sulle pagine Web della Associazione Liber Liber, che sostiene l'iniziativa, all'indirizzo
http://www.liberliber.it.
26

testi elettronici e banche dati testuali: problemi teorici e tecnologie

Transcript

Documenti analoghi

Richiesta di acquisto

Trodat 5460

Generi testuali e fasi della sintesi

Lo sviluppo cognitivo secondo Jerome Bruner

Specifiche tecniche

Inroduzione - Server users.dimi.uniud.it

Tecnologia di stampa digitale: un passaggio decisivo per una

Laboratorio di Espressione scritta Buona scrittura!

PROTOCOLLO D`INTESA TRA ANP - Associazione Nazionale

Il markup di documenti (II parte)

DIONISO-MU/MT/R Contatto magnetico per porte e finestre radio