gestione documentale in ambiente digitale

Transcript

gestione documentale in ambiente digitale
A. FOLINO - F. IOZZI - M. TAVERNITI
Gestione documentale
in ambiente digitale
Comet Editor Press
ISBN 978-88-906029-3-1
© 2012 C.C. Comet Editor Press
Via Nazionale, 13/b - 87050 Marzi (Cosenza)
Tel. 0984 983015
e-mail: [email protected] - www.cometeditorpress.it
––––––––––––––––––––––––––
È vietata la riproduzione, anche parziale o ad uso interno e didattico,
con qualsiasi mezzo effettuata, non autorizzata dall’Editore.
255
CAPITOLO 3
Le procedure di selezione dei documenti digitali
MARIA TAVERNITI
Oggetto ed argomento di questa sezione, come già citato nell’introduzione al volume, sono le metodologie e i prerequisiti per la
valutazione e la selezione semiautomatica dei documenti d’archivio su supporto digitale in relazione alle prescrizioni normative ed agli obblighi di conservazione previsti dalle singole amministrazioni produttrici all’interno dei piani di conservazione
adottati1. Il semiautomatismo vuole indicare la necessità – sempre e comunque – del perdurare dell’intervento umano in fase di
decisone definitiva circa il valore delle risorse documentali, specie nel caso in cui si tratti della proposta di scarto definitivo degli atti, sebbene tale evenienza perda gran parte della sua criticità
e della sua cogenza con il diminuire dei costi dello stoccaggio.
Concentreremo la nostra attenzione su tipologie documentali dotate di elementi intrinseci ed estrinseci utili ad una qualche forma di taggatura dell’atto. Introdurremo inoltre un caso studio finalizzato alla definizione di una mappa concettuale contenente
gli attributi necessari allo scarto/conservazione. Ai fini della se1
Parti del presente lavoro sono state già citate in: ANNA ROVELLA, ROBERTO
GUARASCI, MARIA TAVERNITI, Metodi per la selezione automatica dei documenti, in «Culture del testo e del documento», 2009, Vol. 29, pp. 119-130.
256
A. Folino - F. Iozzi - M. Taverniti: Gestione documentale in ambiente digitale
lezione e valutazione dei documenti la metodologia proposta
sfrutterà, combinandole, tanto tecniche statistiche quanto approcci linguistico-computazionali la cui valutazione finale non
può prescindere dalla definitiva decisione dell’operatore umano.
Quest’ultimo, tra l’altro, oltre che nella valutazione delle «code
di errore», è un fondamentale ausilio nella prima fase di addestramento e apprendimento dei modelli documentali delle tipologie di atti da scartare.
In pratica abbiamo cercato di verificare la fattibilità di due
ipotesi di lavoro:
1. se è possibile, attraverso la definizione di modelli documentali, stabilire delle regole specifiche affinché un sistema possa essere in grado di determinare, in maniera affidabile e grazie all’implementazione di uno o più algoritmi statistici costruiti basandosi sull’osservazione empirica delle caratteristiche proprie dei documenti di un archivio, la probabilità che un
documento possa essere proposto per lo scarto;
2. se, in ambiente digitale, con un costo di occupazione dello
spazio infinitamente meno oneroso dell’analogico, è ancora
attuale e necessario operare lo scarto archivistico dei documenti digitali nativi, e non sia invece il caso di cominciare a
prendere in considerazione una visualizzazione selettiva degli
stessi mediante tecniche di Information Retrieval e Information Extraction oggi comunemente adottate nei più comuni
motori di ricerca.
In generale partiamo dal presupposto che le caratteristiche più
rilevanti di un documento non possono prescindere dall’analisi
del contenuto documentale ovvero dall’informazione memorizzata, e più o meno strutturata2, e che la diversità contenutistica è
2
Documento ed informazione non devono erroneamente essere considerati
concetti sinonimi, poiché quest’ultima rappresenta il contenuto del primo
e, rispetto ad esso, è indipendente da un qualsiasi supporto di registrazione. L’insieme dei due, supporto e informazione, costituisce – appunto – il
Maria Taverniti
257
associata sia a specifiche caratteristiche formali che ad elementi
specifici che fungono da «separatori». Dalla minore o maggiore
formalizzazione dell’informazione dipende anche la successiva
modalità di trattamento ed il grado di recupero della stessa. Tanto maggiori sono la strutturazione e formalizzazione del modello documentale tanto più semplice e puntuale sarà il recupero
con gli strumenti attualmente a disposizione, nati, essenzialmente, per trattare dati formalizzati in modelli definiti. Tutto ciò non
può, ovviamente, prescindere dalla valutazione della presumibile validità storica futura che, solo per alcuni aspetti, è quantitativamente misurabile in quanto deve tener conto di una pluralità di
aspetti e di considerazioni che sono proprie della cultura e della
sensibilità dello specifico operatore culturale. Per contro quello
che è un punto di forza è anche il maggior punto di debolezza
della procedura in quanto l’avalutatività della scelta è più una
enunciazione di principio che un dato universalmente verificato
«e i documenti che mandiamo al macero hanno comunque qualche rilevanza storica»3.
3
documento. L’informazione, a sua volta, è costituita da dati, o elementi
«grezzi», ovvero da simboli attraverso i quali rappresentiamo la realtà. I
dati sono definibili come unità primarie grezze, che da soli, non hanno la
potenzialità di ridurre il nostro stato d’incertezza. Solo grazie ad un processo di elaborazione questi vengono messi in relazione con altri elementi determinando una diminuzione dello stato di incertezza. Questa informazione – concretizzata attraverso più segni linguistici o grafici – è l’ovvio frutto di un processo di rappresentazione la cui potenzialità è racchiusa nella sua capacità di riprodurre, dell’oggetto di nostro interesse, solo
quelle caratteristiche che soddisfano la motivazione per le quale la rappresentazione è stata creata. Il supporto fisico è, quindi, solo il materiale
– necessario ma non influente – mediante il quale l’informazione documentale diventa intelligibile e decodificabile.
PAOLA CARUCCI, MARIA GUERCIO, Manuale di archivistica, Roma, Carocci, 2008, p. 227.
258
A. Folino - F. Iozzi - M. Taverniti: Gestione documentale in ambiente digitale
1. Metodi per la selezione dei documenti: Excursus storico e
prassi archivistica
1.1. Introduzione
All’interno dell’iter di produzione, ordinamento e conservazione dei documenti analogici o cartacei che dir si voglia la procedura di selezione era, sostanzialmente, considerata una tragica
necessità, un male inevitabile che rompeva comunque l’originaria unicità del complesso documentale alterando il vincolo archivistico e con esso tutti i contenuti culturali connessi. In un universo cartaceo la natura e la definizione dell’archivio sono nette
e definite. Esso è – dice Eugenio Casanova – «la raccolta ordinata degli atti di un ente o individuo costituitasi durante lo svolgimento della sua attività e conservata per il conseguimento degli scopi politici, giuridici, culturali di quell’ente o individuo»4.
Questa sequenza ordinata viene necessariamente alterata quando
necessità contingenti di spazio e di costi di gestione impongono
una necessaria selezione. Elemento di rottura di questo schema
puramente conservativo è l’affermazione dello scarto come momento dell’ordinamento e quindi come attività propedeutica e
necessaria ad una fase «positiva» della vita dei documenti senza
la quale il complesso archivistico rischia di non evidenziare le
sue potenzialità culturali ed informative sommerso dalla congerie del materiale accessorio e di corredo5. È proprio questa seconda concettualità della selezione che può, eventualmente, fornire degli elementi credibili per una teoria dello scarto in ambiente digitale quando la motivazione principe dell’occupazione
dello spazio e dei costi di stoccaggio viene drasticamente ridi4
5
EUGENIO CASANOVA, Archivistica, Siena, Arti Grafiche Lazzeri, 1928, p.
533.
PAOLA CARUCCI, Lo scarto come elemento qualificante delle fonti per la
storiografia in «Rassegna degli Archivi di Stato», XXXV, gen/dic. 1975,
pp. 253-255.
Maria Taverniti
259
mensionata dall’evoluzione tecnologica del settore. Il vero fondamento dello scarto va quindi ricercato in quella che può essere considerata una legge costante di economicità presente in ogni
processo evolutivo: l’accoglimento cioè di quegli elementi della
fase trascorsa, funzionali ed essenziali allo svolgimento della fase in atto e quindi al suo superamento. Nel caso specifico della
conservazione delle fonti si tratta della necessità di lasciare testimonianza vitale di una civiltà nella quale i criteri per procedere
alla qualificazione delle fonti sono essi stessi elementi qualificanti di quella determinata cultura. Questa definizione, rigidamente basata sulla tipologia e finalità del materiale conservato,
che distingue l’archivio da tutti gli altri istituti culturali di conservazione, tende a sfumarsi nel momento in cui in virtù delle
evoluzioni tecnologiche e della normativa, in particolare italiana6, viene meno la necessaria materialità e fisicità del supporto
6
Già dal 1990, con l’introduzione nell’ordinamento italiano della legge 7
agosto 1990, n. 241, Nuove norme in materia di procedimento amministrativo e di diritto di accesso ai documenti amministrativi, si stabilisce
che il documento informatico ha la stessa valenza giuridica del documento cartaceo. L’art. 22 c. 2 recita : «È considerato documento amministrativo ogni rappresentazione grafica, fotocinematografica, elettromagnetica o
di qualunque altra specie del contenuto di atti, anche interni, formati dalle pubbliche amministrazioni o, comunque, utilizzati ai fini dell’attività
amministrativa». Col D. Lgs. 12 febbraio 1993, n. 39 (Gazz. Uff., 20 febbraio, n. 42), Norme in materia di sistemi informativi automatizzati delle
amministrazioni pubbliche, si stabilisce inoltre, Art. 3. 1. che «gli atti amministrativi adottati da tutte le pubbliche amministrazioni sono di norma
predisposti tramite i sistemi informativi automatizzati. 2. Nell’ambito delle pubbliche amministrazioni l’immissione, la riproduzione su qualunque
supporto e la trasmissione di dati, informazioni e documenti mediante sistemi informatici o telematici, nonchè l’emanazione di atti amministrativi
attraverso i medesimi sistemi, devono essere accompagnate dall’indicazione della fonte e del responsabile dell’immissione, riproduzione, trasmissione o emanazione. Se per la validità di tali operazioni e degli atti
emessi sia prevista l’apposizione di firma autografa, la stessa è sostituita
260
A. Folino - F. Iozzi - M. Taverniti: Gestione documentale in ambiente digitale
scrittorio dando anche origine ad una tipologia documentale di
difficile collocazione negli schemi tradizionali della disciplina
archivistica. In particolare, questa situazione – della quale oggi
viviamo l’epilogo – ha avuto avvio nell’ultimo decennio del XX
secolo. Se dobbiamo stabilire una data, più convenzionale che
operativa, per avviare la nostra indagine questa è, certamente, il
1990. Fino all’emanazione della legge 7 agosto 1990 n. 241, in
Italia, il documento prevedeva un unico supporto giuridicamente valido, quello analogico e, conseguentemente unico, fino a
quella data, era il supporto scrittorio dei documenti da scartare.
L’art. 22 della citata legge norma la facoltà per le P.A. di utilizzare una pluralità di supporti scrittori per la redazione degli atti
amministrativi anche se si dovrà aspettare ancora qualche anno
per la piena validità giuridica del documento informatico in conseguenza del quale prenderà anche corpo e sostanza il concetto
di dematerializzazione, neologismo indicante la transizione dal
supporto cartaceo a quello informatico non necessariamente come passaggio in sequenza bensì come nuova concettualità di approccio alla formazione dell’oggetto documento. Il termine «documento informatico», come spesso accade nella nostra lingua, è
intrinsecamente polisemico ed indica sia i documenti ottenuti a
valle del processo di dematerializzazione più correttamente definibili come digitalizzati sia quelli digitali nativi. La precisazione
non è irrilevante giacchè diversi sono i riferimenti normativi e
conseguentemente diverse sono le problematiche legate alla selezione. Ovviamente il processo di dematerializzazione o di generazione di documenti digitali è ampiamente sovrapposto a
quello, contemporaneo e preponderante, di generazione dei documenti cartacei per cui le varie tipologie documentali sono
compresenti nel quotidiano lavoro degli archivisti, i quali, ad
dall’indicazione a stampa, sul documento prodotto dal sistema automatizzato, del nominativo del soggetto responsabile.
Maria Taverniti
261
onor del vero, stanno solo ora avvertendo la rilevanza vera del
problema giacchè, finora, l’attività preponderante è stata quella
della digitalizzazione vissuta come una sorta di mera duplicazione digitale di atti i cui originali continuavano ad esistere su supporto ben più tangibile e tradizionale. Una ulteriore problematica, di non poco rilievo, deriva dalla natura demaniale dei beni archivistici e, quindi, dei suoi elementi costitutivi ovvero i documenti nei confronti dei quali nessuna distinzione è fatta in ordine al supporto scrittorio7. Tale caratteristica pertanto ci impone
specifiche cautele circa la sorte finale dei documenti e ci rafforza nella nostra scelta progettuale di ipotizzare realizzazioni semiautomatiche o di supporto decisionale, la cui efficacia e affidabilità va accuratamente testata in simulazioni non distruttive. La
prevalente composizione attuale degli archivi delle P.A. – peraltro già citata – nella quale, a fronte di grandi volumi cartacei, troviamo – ad oggi – modeste parti digitalizzate, non sempre indicizzate, e numeri percentualmente poco significativi di documenti digitali nativi rende le nostre ipotesi di prospettiva, ma ha
anche il vantaggio di dare loro il necessario tempo di sedimentazione e sperimentazione anche perché molti sono i progetti avviati ma poche e modeste le realizzazioni pratiche.
7
L’esplicita qualificazione degli archivi come bene culturale venne introdotta dalla Convenzione dell’Aja, del maggio del 1954, che, all’articolo 1,
definisce l’archivio – appunto – un bene culturale. Ciò è stato confermato
in tutta la specifica legislazione successiva fino al vigente Codice dei Beni Culturali e del Paesaggio, D.lgs. 22 gennaio 2004 n. 42, il quale ribadisce – all’art. 10 – che «gli archivi e i singoli documenti dello Stato, delle
regioni, degli altri enti pubblici territoriali, nonchè di ogni altro ente ed
istituto pubblico». Ai sensi dell’art. 53 del citato D.lgs. 42/2004, sono sottolineati, infatti, «Beni del demanio culturale i beni culturali appartenenti
allo Stato, alle regioni e agli altri enti pubblici territoriali che rientrino nelle tipologie indicate all’articolo 822 del codice civile».
262
A. Folino - F. Iozzi - M. Taverniti: Gestione documentale in ambiente digitale
1.2. Lo scarto archivistico
La letteratura archivistica degli ultimi anni, in particolare
quella anglosassone, è ricca di contributi orientati a definire i criteri oggettivi che dovrebbero guidare l’archivista durante le operazioni di scarto, cioè durante la fase di valutazione del materiale documentale. Molte sono le teorie e le metodologie proposte
aventi più o meno validità generale a prescindere dallo specifico
contesto normativo e funzionale. Ne sono esempio le varianti canadesi, britanniche, americane ed australiane relative all’approccio funzionale ed alla cosiddetta macro-valutazione, cioè alla
scelta da parte del soggetto produttore dei documenti più significativi e rilevanti8.
In tutti i casi ci si trova di fronte a metodi che, pur fornendo
spunti sicuramente interessanti ai fini della valutazione del materiale documentale, non hanno ancora indotto la comunità
scientifica internazionale a definire dei metodi unanimi ed applicabili uniformemente. Il crescente aumento dei documenti digitali, lungi dal sopire le discussioni, le ha – anzi – amplificate aggiungendo, seppur di sfondo, la necessità di una più attenta valutazione dell’affidabilità nel tempo dei nuovi supporti9.
In questo panorama elevato rimane l’ambito discrezionale di
ogni singolo archivista cui compete l’onere e la responsabilità di
definire modalità attuative specifiche di indicazioni più o meno
puntuali che provengono dalla comunità degli utenti o dagli organismi di vigilanza nella convinzione che si tratta, sempre e comunque, di indicazioni e suggerimenti e non di prescrizioni deterministiche.
8
9
Cfr. ICA, Manual on Appraisal, ICA, 2005. Risorsa consultabile online al
seguente url: <http://www.wien2004.ica.org/en/node/30417>.
Cfr. JEAN CHARLES HOURCADE, FRANCK LALOE, ERICH SPITZ, Longévité de
L’Information Numerique, Monts, EDP, 2010, pp. 1-106.
Maria Taverniti
263
1.3. Definizione dello scarto
Definire lo scarto archivistico è solo apparentemente un fatto
semplice. È comunemente accettato che si tratti di un’operazione con la quale si destina al macero, cioè si elimina, quella parte
di documentazione amministrativamente non più valida e ritenuta poco utile o non indispensabile ai fini della ricerca storica.
Conseguentemente l’operazione si colloca al momento immediatamente precedente il passaggio dei documenti nell’archivio storico, quale ne sia la specifica natura, anche se tale scansione cronologica è più ipotetica che reale, specie nel caso delle Pubbliche Amministrazioni e degli organi dello Stato.
La più volte citata posizione di Paola Carucci, che consiste
nel considerare l’attività come uno dei momenti dell’ordinamento del fondo archivistico dava una ulteriore indicazione in merito alla scansione temporale individuandola come il momento finale dell’ordinamento, immediatamente precedente all’inventariazione ed al citato versamento/deposito. In tutti i casi si trattava, ovviamente, di una valutazione ex post dei documenti effettuata da singoli o in maniera collegiale in relazione alla obbedienza a un modello storiografico a servizio del quale avrebbero
dovuto collocarsi i documenti prescelti per la conservazione permanente. Da qui anche il pertinente richiamo da parte di più di
un autore alla necessaria – per quanto possibile – avalutatività
del processo del quale si ravvisava la pericolosa delicatezza in
ordine alla possibilità di precostituzione del fatto storico, anche
perché in ogni caso, e con piena onestà intellettuale, l’archivista
opera sempre e comunque sulla base della propria competenza
professionale e della propria visione del mondo e della storia. La
necessaria redazione degli elenchi di scarto è il tentativo di introdurre una ulteriore garanzia e limitazione degli errori ed della
possibile arbitrarietà delle operazioni di selezione.
La destinazione finale dei documenti scartati, anche in ragione della loro origine demaniale, comportava – inizialmente – la
loro cessione ad organizzazioni benefiche senza fini di lucro. A
264
A. Folino - F. Iozzi - M. Taverniti: Gestione documentale in ambiente digitale
tal proposito, col Regio Decreto del 10/08/1928 n. 2034 si stabiliva che i documenti ritenuti inutili dovevano obbligatoriamente
essere ceduti alla Croce Rossa Italiana10.
Oggi tale obbligo non è più valido poiché quanto disposto è
stato abrogato e sostituito dal D.P.R. n. 37/2001 il quale demanda la destinazione finale dei documenti, cioè dello scarto d’archivio, all’autonoma decisione di ciascuna amministrazione produttrice.
1.4. Stato dell’arte in Italia
Se è pur vero che già sul finire degli anni venti del secolo
scorso cominciava a nascere la consapevolezza che lo scarto documentale fosse da ritenersi un’operazione utile per motivazioni
più che altro pratiche11, è altrettanto vero che, nel panorama italiano, le operazioni di selezione e/o di scarto sono considerate
delicate poiché vanno ad influenzare e a rompere volontariamente il legame, naturale e originario, esistente tra i documenti
la cui sedimentazione naturale forma l’archivio nel senso proprio
del termine12.
10
11
12
Già ai sensi del Decreto Luogotenenziale 30 gennaio 1916, n. 219, art. 6
e successive proroghe, gli atti sottoposti a procedura di scarto dovevano
essere ceduti gratuitamente ai Comitati provinciali della Croce Rossa Italiana.
«[…] l’archivista, prima di tentare qualsiasi riordinamento, […] deve procedere alle delicate operazioni di scarto. Scartare o eliminare significa segregare dalle scritture utili quelle inutili, dichiararle prive di valore e come tali snaturarle, ridurle a pura carta da trafficare e quindi distruggere.
[…] Contro tali operazioni insorsero dappertutto gli scienziati e i competenti. […] noi inchinandoci a quelle proteste, riconosciamo come tutto sia
utile in senso lato. […] Tuttavia incliniamo a cercare di ridurre al minimo
i danni provocati dalle distruzioni minacciate o compiute.[…] Tutto è utile, è vero; ma è utile secondo i tempi e i luoghi. […]l’archivio deve contenere e conservare quelle carte che hanno un qualche valore». E. CASANOVA, Archivistica cit., pp. 154-155.
A questo proposito ulteriori citazioni le troviamo in: GIORGETTA BONFI-
Maria Taverniti
265
Non stupisce pertanto leggere sul sito del Ministero per i Beni e le Attività Culturali (MiBAC), a proposito dello scarto dei
documenti d’archivio, che «la selezione della documentazione
archivistica, che si propone per lo scarto, è intervento che presuppone una decisione consapevole e non arbitraria da compiersi con molta cautela13».
Questa affermazione va letta anche considerando il fatto che,
come già accennato, nell’ordinamento giuridico italiano gli archivi sono a tutti gli effetti ritenuti beni culturali soggetti a tutela pubblica14. La selezione e lo scarto sono i due momenti dell’attività decisionale relativi alla determinazione del valore documentale. Va però sottolineato che i tre termini, selezione, scar-
GLIO-DOSIO,
13
14
Primi passi nel mondo degli archivi, Padova, CLEUP, 2007,
cfr. cit. p. 91: «lo scarto è un evento che non può trovare giustificazione
teorica, proprio perché la distruzione volontaria di parte dell’archivio intacca inevitabilmente il vincolo»; ANTONIO ROMITI, Archivistica generale,
Lucca, Civita, 2002, cfr. cit. p. 78: «lo scarto rappresenta uno dei momenti più delicati del lavoro dell’archivista, poiché consiste in una operazione
a carattere irreversibile che viene effettuata sopra una documentazione che
frequentemente si configura quale unica testimonianza dell’attività pratica, giuridica, amministrativa di soggetti pubblici e privati: gli interventi di
selezione e di eliminazione della produzione archivistica devono essere
condotti quindi con la massima consapevolezza e con il rigido rispetto dei
principi archivistici».
MiBAC, url: <http://www.archivi.beniculturali.it/SAVE/Scarto%20archivistico.asp>.
Cfr. art. 10, c. 2, lettera b del D. lgs. n. 42 del 22 Gennaio 2004, Codice
per i Beni Culturali e Paesaggistici: «Sono beni culturali gli archivi e i
singoli documenti dello Stato, delle regioni, degli altri enti pubblici territoriali, nonché di ogni altro ente ed istituto pubblico.» L’illegittimità delle operazioni di scarto/distruzione, effettuate senza previa autorizzazione
della soprintendenza, è stabilita al c. 1 dell’art. 169 del già citato codice;
di fatto, «È punito con l’arresto da sei mesi ad un anno e con l’ammenda
da euro 775 a euro 38.734, 50 a) chiunque senza autorizzazione demolisce, rimuove, modifica, restaura ovvero esegue opere di qualunque genere sui beni culturali indicati nell’Articolo 10».
266
A. Folino - F. Iozzi - M. Taverniti: Gestione documentale in ambiente digitale
to, eliminazione, in linea generale, in Italia, sono usati alternativamente come quasi sinonimi pur presentando delle sostanziali
diversità concettuali15.
Dal punto di vista terminologico, potremmo così definirli:
– la selezione è l’attività di individuazione dei documenti da destinarsi all’archivio storico o, nel caso in cui essi vengono ritenuti senza valore, da sottoporre allo scarto, il quale può essere effettuato anche periodicamente e comunque prima del
passaggio dei documenti nella fase così detta inattiva durante
la quale la loro conservazione è permanente e non più soggetta a «tagli». Inoltre, riprendendo le parole di Giorgetta Bonfiglio-Dosio, selezione è un termine con cui si ribadisce l’atteggiamento critico e valutativo dell’archivista – in quanto
«consegna il materiale archivistico allo studioso di storia» – e
rappresenta uno dei momenti cruciali nella vicenda di un archivio16;
– lo scarto è l’attività con cui si destina parte dei documenti di
un archivio all’eliminazione (siano essi su supporto analogico
o digitale). In particolare, Paola Carucci lo definisce come
«l’operazione con cui si destina al macero parte della documentazione di un archivio prima del versamento nell’Archivio di Stato o nella Sezione storica dell’archivio di un ente
pubblico»17.
– l’eliminazione è l’operazione di distruzione materiale, conseguente alle operazioni di selezione e scarto. Giuseppe Plessi
la definisce come l’adozione dei mezzi più adeguati per di15
16
17
ANTONIO ROMITI, Lo scarto archivistico in Italia: analisi e proposte, fa
parte di Lo scarto. Teoria, normativa e prassi, (a cura di) Gilberto ZACCHÉ, San Miniato, Archilab, 2002, pp. 39-56.
G. BONFIGLIO-DOSIO, op. cit., p. 94.
La Definizione è tratta da P. CARUCCI (a cura di) Glossario di termini archivistici, consultabile al seguente url: <http://www.archivi.beniculturali.it/tools/DGA-glossario/>.
Maria Taverniti
267
struggere, con l’incenerimento o altri mezzi (macerazione,
decomposizione, ecc.), le carte designate come inutili o superflue dallo scarto e comunque estromesse dalla compagine
organica dell’archivio18. Inoltre, Paola Carucci, riferendosi al
fatto che in Italia manca un termine specifico indicante l’operazione di valutazione dei documenti da proporre per lo scarto con la conseguente destinazione degli stessi a conservazione permanete, nel suo glossario – liberamente consultabile sul
sito del MiBAC – utilizza la voce Sorveglianza per indicare
«l’insieme delle funzioni relative alla valutazione per lo scarto dei documenti prodotti dalla pubblica amministrazione, alla preparazione dei versamenti e al controllo della corretta gestione degli archivi correnti degli uffici statali. Tali funzioni
sono esercitate da apposite commissioni di sorveglianza istituite per tutti gli uffici centrali e periferici dello Stato e di cui
è sempre membro di diritto un archivista di Stato»19.
Va osservato che le definizioni citate si riferiscono e sono state pensate per «situazioni cartacee» sebbene, concettualmente,
siano adattabili tanto ai documenti cartacei quanto ai documenti
nati su supporto digitale o digitalizzati. Nella pratica infatti, ad
oggi, ci si è trovati ad affrontare solo lo scarto dei documenti appartenenti alla prima tipologia. Ma, come ribadito altrove, attualmente in Italia ad avere piena validità giuridica è anche il documento elettronico20, che non è più copia di lavoro di un originale cartaceo anche se costituisce ancora quello più largamente
utilizzato.
18
19
20
GIUSEPPE PLESSI, Avvio all’archivistica, Bologna, Fotocromo, 1983, p. 96.
PAOLA CARUCCI, Glossario dei termini archivistici, cit.
D. Lgs. 7 marzo 2005, n. 82, pubblicato in G.U. del 16 maggio 2005, n.
112 – S.O. n. 93, Codice dell’amministrazione digitale, aggiornato dal
D.Lgs. n. 159 del 4 aprile 2006 pubblicato in G.U. del 29 aprile 2006, n.
99 – S.O. n. 105, Disposizioni integrative e correttive al D. lgs. 7 marzo
268
A. Folino - F. Iozzi - M. Taverniti: Gestione documentale in ambiente digitale
1.5. Massimario e prontuario di scarto
Per limitare l’apporto individuale dei singoli e tentare di rendere omogenee le procedure è consolidata nell’uso l’adozione di
strumenti quali il Massimario di Scarto21 e il Piano di Conservazione22, entrambi considerati utili supporti nell’attività di selezione e scarto. Il primo è costituito da un elenco di tipologie di
documenti – indicante, per ogni tipologia documentale, il tempo
di giacenza dell’atto che non è mai inferiore ad un anno – eliminabili a scadenze cronologicamente definite; il secondo, diversamente dal primo, definisce a priori i tempi di attività e semiattività dei documenti nonché i tempi di conservazione degli stessi
e, proprio per queste sue caratteristiche, meglio si presta alla gestione di documenti e/o risorse digitali.
Tali strumenti rappresentano un supporto concreto all’attività
di selezione e scarto seppur chiaramente destinati a funzioni diverse anche per il diverso contesto nel quale hanno avuto origine e vita. I massimari di scarto, nati per archivi esclusivamente
cartacei, miravano ad uniformare le procedure di selezione nei
diversi contesti di utilizzazione ed avevano anche una funzione
«didattica». Concepivano, comunque, l’attività di selezione co-
21
22
2005, n. 82 recante Codice dell’Amministrazione Digitale, nonché dal D.
lgs. n. 235, Modifiche ed integrazioni al D. Lgs. 7 marzo 2005, n. 82, recante Codice dell’amministrazione digitale, a norma dell’articolo 33 della legge 18 giugno 2009, n. 69 del 30 dicembre 2010, pubblicato nella
G.U. n. 6, del 10 gennaio 2011.
Il massimario di scarto, già previsto dal D.P.R. 1409/1963 «Norme relative all’ordinamento ed al personale degli archivi di Stato», può essere inteso come una sorta di elenco di massima, indicativo e non tassativo, di tipologie documentarie da eliminare a scadenze prefissate.
Il piano di conservazione, previsto ai sensi dell’ art. 68 del D.P.R.
445/2000, va visto come strumento archivistico che, integrato nel titolario
di classificazione, contiene modalità e tempi di conservazione dei documenti. Cfr. anche ELENA A. ROSSI, M.GUERCIO, La Metodologia per la definizione dei piani di classificazione in ambiente digitale, Roma, SSPA,
2005, p. 191.
Maria Taverniti
269
me una valutazione a valle della cessazione dell’attività amministrativa delle unità archivistiche interessate ed erano tarati per
scansioni temporali medio-lunghe.
Per contro, il piano di conservazione concepisce l’attività di
selezione e, dunque, di conservazione come un ex ante proprio
nella consapevolezza dell’impossibilità dell’utilizzo delle metodologie e delle tempistiche precedentemente utilizzate. Come dicevamo si presta meglio alla gestione dei documenti digitali anche se la contrazione dei tempi di selezione rischia di influire negativamente sulla valutazione dell’utilizzazione storico-culturale
proprio per la diacronia tra i tempi del piano di conservazione e
quelli della costruzione della memoria storica.
1.6. La proposta di scarto
Individuati i documenti da scartare, i soggetti produttori devono predisporre un apposito elenco descrittivo del materiale che
intendono proporre per l’eliminazione. La proposta di scarto deve riportare tutti gli elementi formali e descrittivi per individuare inequivocabilmente le unità archivistiche per le quali si intende procedere alla distruzione e la relativa motivazione in modo
da offrire ai decisori ogni utile elemento per la valutazione della
proposta stessa23 e del corretto operato dell’archivista, il quale
dovrà infatti «precisare le motivazioni che hanno consentito tale
proposta chiarendo i rapporti relativi alla presenza ed alla conservazione del vincolo naturale»24. Un valido aiuto, nella fase di
stesura e compilazione dell’elenco, è ovviamente rappresentato
dal massimario di scarto e, ove esistente, dal piano di conservazione, entrambi già citati. Nel caso di pubbliche amministrazio23
Gli elementi che l’elenco deve necessariamente riportare sono: a) numero
progressivo: b) descrizione degli atti proposti per lo scarto; c) data iniziale e finale quantità dei volumi, registri, buste, scatole, ecc.; d) peso approssimativo; e) motivi specifici della proposta.
24 A. ROMITI, 2002, p. 82, op. cit.
270
A. Folino - F. Iozzi - M. Taverniti: Gestione documentale in ambiente digitale
ni soggette alla vigilanza della Soprintendenza archivistica, è comunque possibile e opportuno consultare preventivamente la Soprintendenza competente per territorio, la quale prima vaglia la
proposta e ne verifica la congruenza con gli strumenti di conservazione, poi, dopo aver approvato la proposta, dispone l’invio
immediato al Ministero dell’Interno, Ispettorato Centrale per i
Servizi Archivistici (ai sensi dell’art. 4 del D.P.R. 30 dicembre
1975, n. 854, che esercita le funzioni rimaste al Ministero dell’Interno in materia di documenti archivistici non ammessi alla
libera consultazione, dopo il passaggio degli Archivi al MiBAC25. Il suo assenso è previsto e disciplinato dall’art. 9 del
D.P.R. n. 37 dell’ 8 gennaio del 2001 e si esprime, anche con limitazioni, entro 90 giorni. Una volta ricevuto il consenso a procedere – inviato per conoscenza al richiedente lo scarto – la Soprintendenza rilascia la prescritta autorizzazione nel termine
massimo di 180 giorni complessivamente intesi e durante i quali le spetta anche il compito, eventualmente, di effettuare un sopralluogo presso l’ufficio o il privato proponente, per una verifica del materiale selezionato. Di fatto, l’autorizzazione può contenere prescrizioni e può essere negata in tutto od in parte e dopo il suo rilascio l’ente o la persona proprietaria inviano alla Soprintendenza la comunicazione dell’avvenuto scarto. Ovviamente quanto fin qui esposto si riferisce al caso in cui l’operazione di
scarto sia volontaria, ovvero al caso in cui «la presenza dell’incaricato che opera in tale direzione rivela in modo inequivocabi-
25
In base al D.P.R. 854/1975 la Soprintendenza archivistica, dopo aver valutato l’elenco, deve trasmetterlo all’Ispettorato Centrale per i servizi archivistici del Ministero degli Interni, per il controllo sull’eventuale presenza di atti riservati, contenenti o dati relativi alla politica interna o estera dello Stato o i cosiddetti dati sensibili (elencati all’art.22 della legge
675/1996 e successive modifiche ). Una volta pervenuta la lettera di risposta dall’Ispettorato, la Soprintendenza restituisce all’Ente un esemplare della proposta di scarto munito di autorizzazione.
Maria Taverniti
271
le l’intendimento volontario di eliminare dall’archivio gli elementi ritenuti inutili»26.
Lo scarto volontario implica anche considerazioni circa la valutazione e conseguente quantificazione del materiale da scartare e può caratterizzarsi per il fatto d’essere totale, parziale o a
campione. Riferendosi alle prime tipologie di scarto, Antonio
Romiti sostiene che lo scarto ovvero l’eliminazione totale và riferita in particolare ai casi di scarto involontario ed avviene per
motivi non imputabili all’archivista o comunque alla persona o
ente che effettua lo scarto. L’eliminazione parziale, per contro, è
un atto volontario, ovvero «si attua di solito con gli intendimenti guidati della volontà attraverso una selezione o scrematura o
cernita che risponde pur sempre a metodologie di non univoca
ispirazione». Infatti, a proposito della cernita a campione si specifica che senza dubbio si tratta di un’operazione volontaria e
che và effettuata per «settori» ed ha come obiettivo quello di individuare gli «elementi, le serie o gli spezzoni d’archivio strutturalmente uniformi ritenuti utili alla conservazione». A tal proposito, invece, Giorgetta Bonfiglio-Dosio27 specifica che per
campionatura deve intendersi l’eliminazione fisica della maggior parte di una serie della quale, così procedendo, si mantiene
solo un campione ridotto. E sebbene tale procedura non sia caldeggiata dalla comunità archivistica, nella pratica essa viene effettuata regolarmente. Infatti, «solo un campione pari ad almeno
l’1% della serie della «denuncia dei redditi» viene conservata
mentre nel caso dello Sfoltimento si procede con l’eliminazione
di solo alcuni dei documenti costituenti una serie»28.
In tutte le fonti utilizzate è possibile, comunque, individuare
26
27
28
A. ROMITI, 2002, op. cit p. 83. Le altre tipologie di scarto citate da Romiti – per le cui definizioni rinviamo al manuale già cit. – sono: lo scarto naturale e/o involontario; lo scarto colposo; e lo scarto preterintenzionale.
G. BONFIGLIO-DOSIO, 2007 cit.
Ibidem.
272
A. Folino - F. Iozzi - M. Taverniti: Gestione documentale in ambiente digitale
due momenti costitutivi dell’attività di selezione e scarto dei documenti, indipendentemente dal loro supporto:
1. i Massimari di Scarto prima e i Piani di Conservazione poi
individuano delle tipologie documentali da scartare/conservare
sulla base della prassi archivistica e della costruzione di un modello storiografico tipo, composto e supportato da tipologie documentali predeterminate;
2. una parte rilevante dell’attività valutativa è comunque affidata alla libera attività dell’esperto del dominio, archivista, record manager o chiunque altro deputato alla specifica attività.
1.7. La campionatura negli archivi
Abbiamo già accennato all’uso dei metodi quantitativi e statistici applicati alle procedure archivistiche per ridurre le dimensioni del materiale documentale da conservare perennemente oppure da destinare a distruzione. Tutti gli sforzi fatti negli anni per
cercare di risolvere il problema della gestione della enorme
quantità di documenti presente negli archivi, però, hanno portato a soluzioni non sempre efficaci. La campionatura, normalmente impiegata per effettuare analisi e rilevazioni statistiche, è
usata anche in archivistica, sebbene non unanimemente accettata nel contesto nazionale, per tentare di ovviare alla drasticità
della decisione della distruzione di un intero complesso documentale o di una parte rilevante di esso.
Il termine campionatura indica quella metodologia che permette di selezionare, all’interno di un insieme comunemente definito popolazione, uno o più elementi rappresentativi dell’insieme stesso che costituiranno appunto un campione le cui caratteristiche riflettono, con ragionevole approssimazione, quelle dell’insieme dal quale provengono. Nata, come riflette anche la terminologia in uso, in altri ambiti, tale procedura si prestava, ovviamente, a ridurre l’impatto della selezione di intere serie archivistiche o anche di singole unità sull’organicità dell’insieme
del complesso documentale interessato. La procedura di estra-
Maria Taverniti
273
zione, in genere casuale, rappresentava – però – uno dei principali ostacoli all’applicazione massiva del metodo elaborato, è
bene ricordarlo, per serie di dati e non per documenti descrittivi.
La campionatura, nel senso più ampio del termine, include approcci matematici e non matematici. Il limite principale di una
campionatura non matematica è quello di non definire con precisione quali siano i criteri da seguire per ottenere una campionatura che sia rappresentativa o illustrativa dell’insieme su cui è
stata eseguita. Ovviamente la campionatura non-random presenta gli stessi limiti e problemi dello scarto archivistico necessitando sempre e comunque di una attività valutativa individuale e
soggettiva. Applicando una campionatura statistica la verifica
dell’omogeneità dell’insieme si basa su una misura di variazione: in questo modo si specifica il grado di accuratezza desiderato, oltre che il grado di certezza che sarà raggiunto. Non è tanto
importante il valore del singolo documento, quanto l’omogeneità
generale. In questo caso si hanno tre fattori chiave: la variazione,
il grado specifico di accuratezza e il livello di certezza che verrà
raggiunto; questi fattori, uniti agli algoritmi necessari per produrre una specifica misura di campionatura, possono essere usati per calcolare la quantità di documenti da preservare e, conseguentemente, quanti sarà necessario scartare. L’approccio statistico offre l’innegabile vantaggio di prescindere dalla soggettività degli operatori e presenta lo svantaggio, più o meno rilevante, di perdere alcune sfumature che solo l’occhio esperto dell’archivista riesce a notare. Nel corrente uso in ambito archivistico
vi sono, sicuramente, delle iniziali difficoltà legate, più in generale, all’utilizzo di strumenti matematici non sempre congruenti
con la formazione culturale degli operatori del settore, nonché a
specifiche necessità operative relative, ad esempio, alla necessità
della univoca individuazione delle unità archivistiche. Il problema più insidioso della simple random sampling riguarda l’uso
delle tabelle con numeri casuali. Per usare le tabelle ciascun elemento della popolazione sottoposto a campionatura deve avere
274
A. Folino - F. Iozzi - M. Taverniti: Gestione documentale in ambiente digitale
un numero univoco di identificazione. Sfortunatamente ciò non
è sempre correttamente, verificato il che obbliga, spesso, a un
oneroso pre-processing.
Uno dei tentativi di ovviare al problema è la selezione sistematica che si effettua utilizzando uno specifico passo di campionamento determinato in base al rapporto tra la numerosità (N)
della lista e quella del campione da selezionare (n)29. La costruzione di campioni stratificati, originati cioè da insiemi divisi in
sottoinsiemi, offre alla gestione documentale la possibilità di mitigare l’arbitrarietà della scelta random riproponendo però, surrettiziamente, gli stessi problemi già notati in ordine alla necessità della preventiva definizione degli attributi per la divisione
dell’insieme e del numero di sottoinsiemi o «strati».
Antonio Romiti si è espresso negativamente circa l’adozione
della tecnica della campionatura classificandola, dal punto di vista teorico come «un metodo antiarchivistico e di conseguenza
inapplicabile»30, ma, riflettendo sull’effettiva attuazione, la definisce, comunque, come un possibile ausilio di fronte ai problemi di spazio spesso irrisolvibili ed alla non determinabile
specifica competenza degli addetti alla selezione. La condizione fondamentale da rispettare è che la tecnica di campionatura
venga «applicata con criteri studiati e coordinati con altre realtà
similari», per attenuarne i possibili effetti negativi. «La campionatura, indipendentemente dalle posizioni teoriche più o meno
concordi, non deve essere ritenuta una soluzione positivamente
significativa, poiché a seguito di tali interventi si ottengono
«tronconi» o spezzoni» di archivi che in verità non ci sentirem-
29
30
LUIGI FABBRIS, L’Indagine Campionaria, metodi, disegni e tecniche di
campionamento, NIS, Roma, 1989, p. 44.
ANTONIO ROMITI, Lo scarto archivistico in Italia: analisi e propostei, in
GILBERTO ZACCHÈ, (a cura di), Lo scarto. Teoria, normativa e prassi, San
Miniato, Archilab, 2002, pp. 39-56.
Maria Taverniti
275
mo di classificarli né propri, né impropri, né raccolte, ma solamente specimina»31.
1.8. Selezione dei documenti elettronici
Nel 200l Maria Esteva pubblica uno studio dal titolo Bits and
Pieces of text: Appraisal of a Natural Electronic Archive32 nel
quale presenta una metodologia per la selezione dei documenti
digitali nativi. Il tentativo della Esteva era quello di combinare i
principi e le concettualità tradizionali dell’archivistica con le
possibilità di ricerca offerte da applicativi di Data e Text Mining.
È sicuramente un approccio condivisibile nel nostro contesto
d’uso anche se non del tutto innovativo, almeno da un punto di
vista enunciativo.
Lo spostamento dell’attenzione dalle caratteristiche giuridicoformali dei documenti a quelle più squisitamente informative e
contenutistiche ha reso evidente il necessario apporto di ulteriori specificità disciplinari all’attività di gestione documentale.
Storicamente è a cavallo tra il 1950 ed il 1960, con l’irruzione delle tecnologie digitali nei sistemi documentali, che nascono
i primi tentativi di indicizzazione controllata di banche dati testuali. Bisognerà, però, aspettare l’inizio degli anni novanta affinché gli estrattori automatici di termini comincino a produrre
dei risultati utilizzabili in contesti applicativi. Come ben sottolinea Rosa Estopà Bagot, nella sua tesi di dottorato (2002): Extacción de terminología: elementos para la construcción de un
SEACUSE: Sistema de extracción automatica de candidatos a
31
32
Ibidem.
MARIA ESTEVA , Bits and Pieces of Text: Appraisal of a Natural Electronic
Archive, Paper presentato a Digital Humanities 2007, 19th Joint International Conference of the Association for Computers and the Humanities, and
the Association for Literary and Linguistic Computing, at the University of
Illinois, Urbana-Champaign, June 4 - June 8, 2007, Consultabile all’url:
<http://www.digitalhumanities.org/dh2007/abstracts/xhtml.xq?id=136>.
276
A. Folino - F. Iozzi - M. Taverniti: Gestione documentale in ambiente digitale
unidad de significacción especializada33, l’aggettivo «automatici» riferito a tali strumenti non è del tutto pertinente. La definizione più appropriata dovrebbe essere estrattori semi automatici
di termini/caratteristiche. Questa specificazione riguarda il fatto
che le «parole» e o i descrittori, ovvero le caratteristiche documentali estratte automaticamente per mezzo di strumenti informatici, acquisiscono la dignità d’essere definite «descrittore» oppure «termine» solo in seguito ad un processo di validazione da
parte di un esperto di dominio.
I descrittori e i metadati, ovvero le faccette documentali, sono
parole e/o gruppi di parole, estratte da un corpus documentale e
normalizzate, contenute in un thesaurus, cioè in uno strumento di
controllo terminologico, e scelte tra un insieme di altri termini
equivalenti al fine di rappresentare senza ambiguità una nozione
contenuta in un documento, base di dati o in una query. I descrittori devono essere considerati come etichette funzionali alla
descrizione dell’informazione. Non devono essere pertanto confusi con i «termini» propriamente detti. Questa distinzione è necessaria in quanto in terminologia i termini sono le unità tipiche
impiegate dagli esperti di un settore specialistico per comunicare tra di loro e sono concepite come unità lessicali che rappresentano e permettono di trasferire la conoscenza specialistica dei
settori scientifici tecnici34, mentre per i documentalisti i termini
33
34
ESTOPÁ BAGOT R., Extracción de terminologia: elementos para la costrucción de un SEALUSE: Sistema d’Extraccón Automatica de Candidatos a Unidades de Significación Especializada, tesi di dottorato, IULA,
Università Pompeu Fabra, Barcellona, 2002. Cfr. anche ANDREINA, ADELSTEIN, JUDIT FELIU, Relations semàntiques entre unitati lèxiques amb valor especializat i descriptores, 2001, in MARIA T. CABRE’ et al. Terminologia i Documentacio’. I Jornada de terminologia i documentacio’, Barcellona: Istituto di Linguistica Applicata – IULA, Università Pompeu Fabra, 2000, pp. 121-131.
Cfr. M.T. CABRE’, La terminologia tra lessicologia e documentazione,
Barcellona: Istituto di Linguistica Applicata – IULA, Università Pompeu
Maria Taverniti
277
sono tanto unità suscettibili di diventare descrittori/metadati del
contenuto documentale, quanto elementi di controllo di un’attività classificatoria. Le unità terminologiche perdono la loro funzione lessicale nel momento in cui diventano voci indice.
Non appartenendo più al linguaggio naturale in questo nuovo
stato i metadati e/o i descrittori assumono la funzione di metarappresentazione della conoscenza35. L’etimologia del termine
metadato richiama perfettamente la sua funzione, cioè i metadati sono dati dei dati.
2. Trovare schemi significativi in masse di informazioni: un
approccio possibile
Se è pur vero che uno degli errori maggiormente diffusi è
quello di ritenere che logiche e sistemi dell’universo cartaceo
siano applicabili meccanicamente a diversi contesti di gestione,
nei quali il solo aumento esponenziale dei volumi delinea degli
scenari nuovi e non prevedibili, è anche vero che la selezione dei
documenti è operazione che richiede comunque l’apporto della
sensibilità professionale degli archivisti ed una valutazione del
contenuto non sempre ugualmente riconducibile alle funzioni
produttrici o al solo arco cronologico di vita del documento, specie in contesti nazionali nei quali maggiore è la divaricazione tra
la prassi operativa e la strutturazione formale-amministrativa di
riferimento. Ciò esclude a priori qualunque metodologia basata
esclusivamente su tecniche di scelta randomica.
Il veloce trend di sviluppo del digitale comporta non pochi ri-
35
Fabra, 2001. M. T CABRE’, et al. Terminologia i Documentacio’, I Jornada de terminologia i documentacio’, Barcellona, Istituto di Linguistica
Applicata – IULA, Università Pompeu Fabra, 2000. M. T CABRE’, Terminologia y Documentacion, in GONZALO C., GARCIA. V Documentacion,
Terminologia y Traduccion, Madrid, Sintesis, Fondazione Duques de Soria, 2000,.pp. 31-43.
A. ADELSTEIN – J. FELIU, 2001, op. cit.
278
A. Folino - F. Iozzi - M. Taverniti: Gestione documentale in ambiente digitale
schi tra i quali, solo per citarne uno, quello legato all’obsolescenza dei formati solo parzialmente risolto dalla forte spinta di
molti governi nazionali verso l’uso di «formati aperti»36. La problematica è tanto più rilevante in uno scenario nel quale lo sviluppo dei sistemi di gestione documentale è stato spesso tumultuoso e non sempre gestito da organiche logiche progettuali.
A livello internazionale risale al 1996, in Australia, la pubblicazione del primo standard per la gestione documentale (AS
4390, 1996) mentre, tra il 2001 e il 2004, è l’International Standardisation Organisation (ISO) a pubblicare la ISO 15489/200137,
la ISO TS 23081-1/2006 e ISO TS 23081-2/200938, rispettivamente sul Record Management e sui metadati.
36
37
38
Per ulteriori approfondimenti sull’argomento si veda: STEFANO PIGLIAPOCO,
STEFANO ALLEGREZZA, Produzione e conservazione del documento digitale, EUM, 2008. Cfr anche il seguente url: <http://archivio.cnipa.gov.it/site/it-IT/Attivit%C3%A0_-_Archivio_storico/Formati_aperti/>.
ISO 15489-1:2001, Information and documentation - Records management - Part 1: General; ISO/TR 15489-2:2001, Information and documentation - Records management - Part 2: Guidelines La presente norma
ISO è stata recepita nel 2006 dall’Ente Nazionale italiano di Unificazione
che ha prodotto la UNI ISO 15489-1:2006, Informazione e documentazione - Gestione dei documenti d’archivio - parte 1 - Principi generali - e
la UNI ISO 15489-2:2007, Informazione e documentazione - Gestione dei
documenti di archivio - parte 2 - Linee guida.
ISO/TS 23081-1:2006 - Information and documentation - Records management processes – Metadata for records - Parte 1: Principles; ISO/TS
23081-2:2009 - Information and documentation - Records management
processes - Metadata for records - Parte 2 - Conceptual and implementation issues. La norma fornisce i principi guida per definire «metadati» utili ad assicurare l’integrità a lungo termine dei documenti informatici, nonché la loro accessibilità. L’elaborazione di «metadati» in grado di dar vita
ad una informazione sicura, accessibile, completa, efficiente è la via maestra sulla quale l’attività normativa è da tempo impegnata. Nella parte 1 si
delineano i principi applicabili, dice la norma, ai record e ai metadati; a
tutti i processi che li riguardano; a qualsiasi sistema in cui risiedono; a
qualsiasi organizzazione che è responsabile della loro gestione. Nella par-
Maria Taverniti
279
Soluzioni basate sulla determinazione a priori delle caratteristiche documentali, trovano, pertanto, una risposta ottimale nella definizione standardizzata degli elementi dei metadati limitandone, contestualmente, l’ambito di applicazione ai soli documenti strutturati ed ai contesti capaci di produrli. In tal senso la
spinta verso la condivisione di un set di elementi minimi comuni per tutte le risorse digitali.
Se è vero, quindi, che la spinta verso subset minimi condivisi
come Dublin Core (ISO 15836: 01/2003)39 e standard sulla gestione e conservazione degli oggetti informativi, utilizzando i
metadati (cfr. ISO 23081), lasciano intravedere una sempre maggiore integrazione dei sistemi, è pur vero che tale situazione non
è generalizzata nei diversi contesti nazionali e che la produzione
di documenti da parte degli utenti finali difficilmente potrà – almeno nel breve e medio termine – essere assoggettata a simili regole, non tanto e non solo per la carenza della normativa, quan-
39
te 2 si definisce il modello per la definizione degli elementi dei metadati
nel rispetto dei principi delineati nella parte 1. Lo scopo del modello è: «to
enable standardized description of records and critical contextual entities
for records; to provide common understanding of fixed points of aggregation to enable interoperability of records, and information relevant to records, between organizational systems; to enable re-use and standardization of metadata for managing records over time, space and across applications». Nella seconda parte è particolarmente importante lo sforzo fatto
per la definizione di alcuni dei punti critici in merito alla decisione da
adottare tanto per i metadati quanto per la conseguente gestione dei record. Lo scopo è infatti: «to identify the issues that need to be addressed
in implementing metadata for managing records; to identify and explain
the various options for addressing the issues, and to identify various paths
for making decisions and choosing options in implementing metadata for
managing records». Cfr. Sito dell’International Organisation for Standardisation al seguente url: <http://www.iso.org/iso/home.htm>.
ISO 15836:2003, Information and documentation – The Dublin Core metadata element set. Questo standard è un sistema di metadati costituito da
un nucleo di elementi essenziali ovvero minimi ai fini della descrizione di
qualsiasi materiale digitale accessibile via rete informatica.
280
A. Folino - F. Iozzi - M. Taverniti: Gestione documentale in ambiente digitale
to perché il tempo necessario affinché l’innovazione diventi parte del patrimonio cognitivo comune è ben diverso da quello necessario a produrre modifiche nel sistema normativo e regolamentare degli Stati. La situazione italiana, con un quadro legislativo completo e tecnicamente avanzato ma non sempre uniformemente applicato, è sintomatica di tale possibile anomalia.
Di fatto ci troviamo in una situazione transitoria a cavallo tra
una società che lavora ancora «su carta» ed una legislazione che
afferma la validità del documento digitale senza dettare regole
condivise per la sua effettiva gestione.
Da qui l’esigenza di definire delle linee metodologiche per la
definizione di modelli documentali capaci di valutare, nel contempo, sia gli elementi di marcatura – ove presenti – sia elementi più squisitamente testuali per la definizione di uno o più pattern di caratteristiche utili ai fini della selezione.
In questo contesto l’età di un documento, ovvero il raggiungimento di un periodo predeterminato di tempo a far data dalla
sua conclusione amministrativa, rappresenta solo la prima precondizione per dare il via alla serie successiva di eventi che compongono l’articolato percorso della valutazione e selezione. Bisogna comunque tener conto – in questo on/off – anche degli
eventi eventualmente modificativi intercorsi nel lasso di tempo
misurando l’arco cronologico sul periodo di effettiva inattività
dell’atto in questione. Nella nostra ipotesi di lavoro abbiamo ipotizzato l’utilizzazione di differenti tecniche di Information Retrieval per estrarre le feature documentali/archivistiche suscettibili d’essere elementi utili per la valutazione della rilevanza del
documento all’interno del nostro caso d’uso rappresentato da documentazione sanitaria40 a diversi livelli di formalizzazione e
strutturazione.
40
I documenti utilizzati riguardano principalmente prescrizioni mediche e
gare d’appalto.
Maria Taverniti
281
Per la realizzazione del sistema di Information Extraction sono state utilizzate più tecniche selezionate in base al tipo d’informazione estratta. Il lavoro è stato organizzato in tre iterazioni
successive: le prime due hanno avuto come obiettivo quello di
valutare l’efficienza delle soluzioni di ricerca semantica, ovvero
di estrazione delle caratteristiche peculiari delle tipologie documentali e l’ultima invece è di carattere prettamente valutativo dei
risultati ottenuti.
Nella prima iterazione sono state applicate tecniche basate su
regole per l’estrazione dei campi con alta omogeneità strutturale
(ad es. i documenti di prescrizione medica), mentre nella seconda iterazione è stato utilizzato un approccio basato su e di Machine Learning per i campi di carattere dinamico e con bassa
omogeneità strutturale (ad es. referti in testo libero, documentazione del personale).
L’approccio «rule-based» consiste nel definire regole sintattiche che consentono di individuare ed estrarre dal documento le
informazioni di interesse. Le regole sono definite manualmente
a priori da un esperto del dominio. L’approccio è stato possibile
data l’omogeneità strutturale dei documenti e la regolarità della
posizione di determinati campi. I campi semantici estratti utilizzando questa tecnica sono stati, in riferimento alle gare d’appalto, Data, Protocollo, Campo Oggetto, dal quale sono stati estratti i termini più rilevanti.
Nel caso studio, i campi semantici estratti utilizzando tecniche di Machine Learning sono stati i seguenti: Segnatura di protocollo, Area Organizzativa Omogenea (AAO), tipo di documento (certificato, licenza, congedo, ecc.), servizio erogato,
utente. Le tecniche di apprendimento automatico (Machine Learning) consentono la realizzazione di strumenti che, basandosi su
osservazioni o esempi, sintetizzano nuova conoscenza.
Il Machine Learning si articola in due fasi: l’addestramento e
l’applicazione. Nel caso in oggetto, sono stati utilizzati due differenti processi di addestramento: uno basato su tecniche di clas-
282
A. Folino - F. Iozzi - M. Taverniti: Gestione documentale in ambiente digitale
sificazione, utilizzato per estrarre la segnatura e l’AOO ed un altro basato su tecniche di sequence labeling utilizzato per estrarre il servizio erogato, l’oggetto e valore del servizio.
La prima fase del processo di addestramento è stata la realizzazione della marcatura e annotazione di un set di documenti
campione (campione di training). La marcatura consiste nell’evidenziazione di parti di testo ed è stata effettuata manualmente. Per produrre il materiale di addestramento necessario alla
sperimentazione in oggetto sono stati etichettati circa 200 documenti dell’archivio dell’Azienda Ospedaliera di Cosenza, evidenziando per ciascuno di essi quelle entità al cui riconoscimento automatico sarà dedicato il sistema. Per ognuna delle tipologie documentali esaminate è stata – di fatto – costruita una
Topic Map41.
41
Il modello di riferimento delle reti concettuali introdotte è quello delle Topic Maps, standard ISO dedicato alla rappresentazione di strutture di conoscenza e delle relative risorse informative [ISO/IEC13250, 2002]. La
prima versione dello standard è stata pubblicata nell’anno 2000. Esso rappresenta una sia un modello astratto di rappresentazione della conoscenza,
sia un sistema di codifica della stessa basato sul linguaggio XML, così che
questo modello viene denominato XTM (XML Topic Maps). Sull’argomento cfr. PAUL GABRIEL WESTON, Dal controllo bibliografico alle reti documentarie, in «Biblioteche Oggi» n.7, pp. 44-56, 2002; FEDERICO MESCHINI, Le mappe topiche: come imparai a non preoccuparmi e ad amare
i metadati, «Bollettino AIB», n. 1, pp. 59-72, 2005; SALVATORE VASSALLO,
Le mappe topiche come un ponte fra beni culturali di natura diversa, in
«Culture del testo e del documento», n. 22, pp. 97-109, 2006; JACK PARK,
SAM HUNTING, XML Topic Maps: Creating and Using Topic Maps for the
Web, Boston, Addison-Wesley Longman, 2002, LUTZ MAICHER; JACK
PARK, a cura di Charting the Topic Maps Research and Applications Landscape First International Workshop on Topic Map Research and Applications, «TMRA 2005», Leipzig, Germany, October 6-7, 2005. Cfr. Anche il
seguente url: <http://www.topicmaps.org/>.
Maria Taverniti
283
2.1. Sistema di addestramento
Il campione ottenuto è stato poi classificato in base all’oggetto, ove presente, alla prescrizione, ovvero la proposta o richiesta,
realizzando le seguenti sequenze procedurali:
• scelta delle porzioni di testo da analizzare: acquisito un documento in input, bisogna individuare la porzione di testo rilevante per la sua categorizzazione. Precisiamo che tutti i documenti sono stati suddivisi in 4 sezioni: intestazione, oggetto,
testo, sottoscrizione o firma;
• scelta del processo di estrazione delle feature: in questa fase il
testo dei documenti processati viene analizzato e vengono
estratte delle feature sulle quali basare, in seguito, la classificazione. La scelta rappresenta una fase determinante del processo di classificazione.
• scelta dell’algoritmo di apprendimento: fase fondamentale all’interno del processo di verticalizzazione dello strumento di
categorizzazione;
Lo strumento di sequence labeling è stato addestrato con gli
esempi derivanti dal processo di etichettatura sopraccitato. In
seguito all’addestramento il sequence labeler effettua, in maniera automatica, la marcatura del testo, identificando le
informazioni per le quali ha appreso il modello derivante dai
documenti usati per effettuare l’addestramento. La precisione
con la quale il componente recupera le informazioni rilevanti
dipende dalla qualità del training set.
L’algoritmo utilizzato per il sequence labeling è stato il Conditional Random Field (CRF); si tratta di una tecnica basata su
un modello probabilistico per il labeling di dati sequenziali. Nel
nostro caso si tratta delle sequenze di parole nel testo in linguaggio naturale. Il CRF, addestrato sugli esempi forniti in input, associa a delle porzioni di testo una delle label disponibili.
284
A. Folino - F. Iozzi - M. Taverniti: Gestione documentale in ambiente digitale
Fig. 1 - Fac-simile di prescrizione medica
Fig. 2 - Fac.simile di richiesta di pagamento dell’dell’Azienda ospedaliera di Cosenza
Maria Taverniti
285
Una volta eseguito il processo di estrazione il passo successivo è quello di sviluppare un sistema di Content Access. Il sistema consente di accedere alla base documentale arricchita delle
meta informazioni estratte. Oltre alla ricerca full text sia sull’intero documento che su una delle sue sezioni, è stato sviluppato
un sistema di ricerca semantica sui campi estratti.
Il sistema è dotato, inoltre, di un motore di clusterizzazione
che organizza il corpus documentale in una tassonomia. Tale
struttura viene creata in maniera dinamica sulla base della query
effettuata; in questo modo i documenti, risultato della ricerca,
vengono raggruppati in cluster di contenuti omogenei. Diventa
possibile quindi, sulla base dei risultati ottenuti, restringere la
query, raffinando, di volta in volta, la ricerca. Ciascun cluster è
identificabile tramite etichette che rimandano al concetto o al
campo semantico che accomuna i documenti di cui si compone.
Quindi, oltre alla modalità di ricerca full-text il sistema di
content access realizzato è corredato:
• della possibilità di effettuare query «lemmatizzate»;
• di una modalità di ricerca sensibile alle sezioni del documento; è infatti possibile effettuare query full text (o lemmatizzate) su sezioni specifiche del documento (prescrizione, servizio_ospedaliero, fornitura, oggetto, ecc.) come evidenziato
nelle Figg. 1 e 2;
• della possibilità di utilizzare le meta informazioni estratte come campi semantici di ricerca. In questo modo diventa veloce ed immediato accedere, ad esempio, a tutti i documenti appartenenti allo stesso oggetto di fornitura, oppure a tutte le
prescrizioni relative a richieste per la stessa patologia. Questa
funzionalità è fondamentale per individuare le tipologie documentali passibili di scarto;
• della possibilità di utilizzare le meta informazioni estratte
come ausilio nella navigazione dei risultati di una ricerca,
organizzandole in cluster; questa funzionalità, in particolare,
consente di sfruttare il contenuto stesso della base docu-
286
A. Folino - F. Iozzi - M. Taverniti: Gestione documentale in ambiente digitale
mentale per fornire all’utilizzatore, in modo proattivo, una
modalità di raffinamento della ricerca;
• di un sistema di visualizzazione delle informazioni estratte dai
documenti.
Le prestazioni del sistema di classificazione vengono misurate attraverso i consueti indicatori:
• Recall: è l’indicatore di prestazione definito dal rapporto fra
il numero di occorrenze e/o feature rilevanti recuperate ed il
numero totale delle occorrenze e/o feature rilevanti presenti
nel complesso archivistico considerato:
R = (numero di informazioni pertinenti recuperate)/(numero
di informazioni pertinenti esistenti).
L’indicatore recall misura la «completezza» della risposta offerta dal motore di classificazione, cioè la capacità di individuare il massimo numero di occorrenze/feature rilevanti rispetto a quelle complessivamente presenti nel sistema;
• Precision: è l’indicatore di prestazione definito dal rapporto
tra il numero di occorrenze/feature pertinenti recuperate ed il
numero totale di occorrenze/feature recuperate:
P = (numero di informazioni pertinenti recuperate)/(numero
informazioni recuperate);
L’indicatore precision misura la «precisione» della risposta
offerta dal motore di classificazione, cioè la capacità di individuare solo le occorrenze rilevanti.
L’indicatore F-measure è la media armonica pesata fra precision e recall ed offre un’indicazione delle prestazioni complessive del sistema.
Gli indicatori sopra definiti sono stati, in una prima fase, già
misurati effettuando una serie di ricerche su di un sottoinsieme
Maria Taverniti
287
dei circa 200 campioni, statisticamente rilevanti, sottoposti a
marcatura, dei quali, pertanto, si conoscono con certezza i contenuti disambiguati. Per ogni tentativo di ricerca è stato misurato il numero di informazioni recuperate, pertinenti e non, essendo a conoscenza del numero esatto di informazioni corrispondenti alla richiesta.
La tabella che segue suggerisce che, aumentando gli esempi
di apprendimento, aumenta il valore della F-measure corrispondente; pertanto, migliorano le prestazioni del sistema.
Fig. 3 - Andamento del valore di apprendimento delle feature
2.1 Un’ulteriore possibilità: Massima Entropia ed estrazione
delle caratteristiche documentali
L’idea nasce da un progetto condotto dal Consiglio Nazionale delle Ricerche (CNR) e dal Centro Nazionale per l’Informatica nella Pubblica Amministrazione (CNIPA) – oggi DigitPA – finalizzato a realizzare un applicativo software open source per la
classificazione semiautomatica dei documenti in un sistema di
288
A. Folino - F. Iozzi - M. Taverniti: Gestione documentale in ambiente digitale
protocollo informatico42. La finalità era quella di ridurre gli ambiti discrezionali degli operatori addetti all’input di un sistema di
gestione documentale proponendo delle possibili classificazioni
dei documenti basate sulla valutazione di un set di addestramento definito come corretto ed usato per il training. Il prototipo
software realizzato si basa sulla considerazione che esiste – in
ogni amministrazione – un set, più o meno ampio, di documenti
correttamente classificati che possono essere utilizzati per addestrare il sistema di classificazione automatico. L’esperienza acquisita con CLAUDIO43 ha consentito di formulare un’ipotesi di
applicazione del medesimo approccio, al processo di selezione
dei documenti.
Per l’effettuazione delle operazioni di scarto, come dicevamo,
è necessaria la contemporanea verifica di almeno due condizioni:
la prima, on/off, puramente cronologica e costituita dal raggiungimento di una data limite, consente di valutare la possibilità successiva; la seconda, non altrettanto univoca, in quanto, pur se si
decidesse di adottare il criterio basato sulle funzioni prestabilite,
si aggiungerebbe solo un ulteriore livello on/off, non potendo, ragionevolmente, procedere alla selezione se non in presenza anche
di una qualche forma di analisi del contenuto probatorio e/o informativo dei documenti candidati. Il problema che ci si pone è,
42
43
ANNA ROVELLA, ROBERTO GUARASCI, MARIA TAVERNITI, Metodi per la selezione automatica dei documenti, in «Culture del testo e del documento:
Le discipline del libro nelle biblioteche e negli archivi », 2009, Vol. 29, pp.
119-130.
Il progetto «Claudio», acronimo di CLassificazione Automatica deI DOcumcenti, è stato ideato per la realizzazione di un applicativo software
open source per la classificazione automatica dei documenti in un sistema
di protocollo informatico dall’unità di ricerca «Sistemi di Indicizzazione e
classificazione» del Consiglio Nazionale delle Ricerche – Dipartimento
Sistemi di Produzione. Cfr. GIUSEPPE ALFREDO CAVARRETTA, ALEXANDER
MURZAKU, ROBERTO GUARASCI, ANNA ROVELLA, La classificazione automatica dei documenti, in «Archivi», Vol. IV, n. 1, 2009, pp. 73-80.
Maria Taverniti
289
quindi, della riconducibilità ad elementi univoci e misurabili dell’attività di analisi del contenuto. Ribadendo che in ogni amministrazione c’è un corpus documentale correttamente classificato da
esperti umani usabile per addestrare il sistema classificatorio a riconoscere, stavolta, i documenti da scartare partendo da evidenze
intrinseche ai documenti stessi, una possibile soluzione al problema potrebbe essere rappresentata dall’uso di sistemi classificatori probabilistici capaci di formalizzare, una volta definito il training set, gli eventi (feature) distintivi di un documento da scartare. A tale scopo è stato utilizzato un classificatore statistico che
sfrutta, come metodologia probabilistica, il principio della Maximum Entropy44. Molto usata in ambiti quali il Trattamento Automatico della Lingua (TAL), il POS (Part of Spech) tagging, la
segmentazione e classificazione dei testi, la Maximum Entropy
permette di misurare la distribuzione delle probabilità che un
evento accada in presenza di vincoli imposti e dedotti dall’osservazione empirica dei dati. Questi, in ogni attività di classificazione, sono rappresentati come insiemi di eventi, a loro volta espressione di un vincolo del modello. Un insieme di tutti gli eventi è
spesso selezionato usando delle metriche, in genere l’information
gain45. Partendo da una rappresentazione del documento, quindi,
dato un training corpus di testi, marcati con la loro classe di appartenenza, può essere creato un modello per predire la probabilità di ognuno di essi di appartenere ad un insieme piuttosto che
ad un altro. In sintesi, la Maximum eEntropy fornisce una metodologia valida per stimare la distribuzione delle probabilità a partire dal corpus di addestramento. Dobbiamo, cioè, valutare, dato
un set di informazioni e caratteristiche proprie del documento in
44
45
ADWAIT RATNAPARKHI, Maximum Entropy Models for Natural Language
Ambiguity Resolution. Ph.D. Dissertation, University of Pennsylvania,
1998.
SOLOMON KULLBACK, Information Theory and Statistics, Dover Books on
Mathematics, Dover, 1997.
290
A. Folino - F. Iozzi - M. Taverniti: Gestione documentale in ambiente digitale
oggetto, quante probabilità ha il documento iesimo di essere
on/Scarto oppure off/Non Scarto46. Il training set è costituito dagli elenchi di scarto, opportunamente campionati, all’interno di
una popolazione riferita a un arco cronologico rappresentativo;
l’algoritmo di classificazione precedentemente descritto è in grado di proporre una elencazione, con peso decrescente, degli atti
da candidare per lo scarto a valle del verificarsi delle condizioni
di on/off precedentemente descritte. Se a tale proposta, basata
esclusivamente su di una ricorrenza statistica, associamo la verifica della contemporanea presenza, nei testi analizzati, di uno o
più termini individuati come descrittori all’interno di un vocabolario di dominio, avremo delle feature capaci di determinare modelli di documenti da proporre per lo scarto. A tal riguardo possiamo anche ipotizzare di utilizzare tecniche di analisi dei corpora testuali. La combinazione di log-likelyhood con z-score permetterebbe – ad esempio – l’individuazione di termini che possono meglio differenziare di fatto, un corpus dall’altro47. Le feature
saranno, dunque, tanto caratteristiche lessicali, quanto temporali
o formali dipendenti, ad esempio, dall’età del documento o dalla
data dell’ultimo accesso, ecc. Così facendo sarà possibile generare un sistema multidimensionale di eventi il cui peso sarà stimato
usando il modello della Massima Entropia. Nella tabella che segue presentiamo un esempio di dati e feature i cui pesi possono
essere stimati attraverso l’uso dell’algoritmo GIS – Generative
Implemented Scaling – implementato in programmi quali
AMIS48.
46
47
48
FELICE DELL’ORLETTA, et al., Climbing the Path to Grammar: a Maximum
Entropy Model of Subject/Object Learning, in atti del congresso «ACL
2005 Workshop on Psychocomputational Models of Language Acquisition», Ann Arbor, MI, USA 2005.
GIUSEPPE CAVARRETTA, ALEXANDER MURZAKU ET ALII, La classificazione
automatica dei documenti, in «Archivi» vol. IV, n. 1, 2009.
TSUJII YUSUKE MIYAO JUN’ICHI, A Maximum Entropy Estimator For Feature Forests in atti del Human Language Technology Conference 2002.
Maria Taverniti
291
Tab. 1 - Esempio 1 Feature dei vettori
Le ulteriori due tabelle rappresentano rispettivamente, per
ogni vettore, la somma degli eventi che lo caratterizzano e la loro normalizzazione.
Tab. 2 - Esempio 2 Somma dei vettori degli eventi
Tab. 3 - Esempio Normalizzazione dei vettori degli eventi
I valori delle feature dei documenti da scartare vengono quindi pesati e formano il prototipo che rappresenta il nostro modello del record da eliminare. A questo punto ogni documento dell’archivio A è rappresentato da un set di caratteristiche (di) che lo
292
A. Folino - F. Iozzi - M. Taverniti: Gestione documentale in ambiente digitale
contraddistinguono e ne determinano lo status Don oppure Doff:
p(Don |di) p(Doff |di) dove Don_A e la distribuzione delle feature
di di, fj(Don|di) è ricavata dal training corpus, ed indica i valori
delle k coppie di feature (Don|di). Infine, (Don|di) è una funzione
di normalizzazione dei fattori. Per ogni parametro _ i valori della distribuzione _1, ..., _k corrispondono ai pesi delle feature. La
probabilità che rispetta le proprietà sopra citate è quella con l’entropia più alta.
In pratica, AMIS per funzionare prende in input un ‘model’ file e un ‘event’ file.
Avremo quindi un file ‘model’ contenente la lista di tutte le
caratteristiche lessicali rilevanti del nostro archivio con un valore di inizializzazione delle stesse (1.0).
Un esempio di model del lessico medico per fare un tagger
per classificare i documenti in due classi può essere il seguente,
precisando che indicheremo con PM (Prescrizione_Medica) e
GF (Gara_Fornitura) le classi:
Modello del File:
Fornitura_GF
Ditta_GF
Licitazione_GF
Offerta_GF
Lotto_GF
Capitolato_GF
Importo-GF
Prescrizione_PM
Richiesta_PM
Proposta_PM
Esenzione_PM
Assistito_PM
Ticket_PM
Importo_PM
1.0
1.0
1.0
1.0
1.0
1.0
1.0
1.0
1.0
1.0
1.0
1.0
1.0
1.0
Maria Taverniti
293
Nel file ‘event’, di fatto, inseriamo tutti i documenti costituenti il training set come una lista di caratteristiche e relative
frequenze:
File Event:
evento1
10 Fornitura_GF Offerta_GF
0 Fornitura_PM Offerta_PM
evento2
23 Proposta_PM Assistito_PM
0 Proposta_GF Esenzione_GF
evento3
14 Fornitura_GF Offerta_GF Licitazione_GF Lotto_GF
0 Fornitura_PM Offerta_PM Licitazione_PM Lotto_PM
Quindi in ‘event’ file inseriamo ogni documento (evento da
classificare nell’archivio) con la sua lista di caratteristiche lessicali attive.
La rappresentazione dell’evento, come si vede sopra è:
nome_evento
frequenza lista_caratteristiche
0 lista_caratteristiche_complementari
Ogni evento (o descrizione di documenti che condividono le
stesse caratteristiche che abbiamo deciso di prendere in considerazione) deve essere separato da quello precedente da un rigo
bianco.
Il «nome_evento» puo’ essere un termine casuale del quale il
sistema non tiene conto.
L’elemento «freq» é il numero di documenti che condividono
esattamente le stesse caratteristiche attive.
Nel rigo che inizia con «freq» indichiamo tutte le caratteristiche attive per i documenti che condividono le stesse caratteristiche. Nelle righe sottostanti inseriamo uno ‘0’ (zero) per ogni
classe che non sia quella che stiamo descrivendo nell’evento.
294
A. Folino - F. Iozzi - M. Taverniti: Gestione documentale in ambiente digitale
Nel nostro caso un solo rigo è a zero perché le classi considerate sono solo: Gare e Prescrizioni. In pratica, questo vuol dire,
prendendo ad esempio il caso seguente:
evento 1
10 Fornitura_GF Offerta_GF
0 Fornitura_PM Offerta_PM
che nel nostro training set ci sono 10 documenti relativi a Gare di Fornitura e che tra tutte le caratteristiche che abbiamo preso in considerazione (la lista di parole chiave l’abbiamo precedentemente estratta con t2k49) questi contengono contemporaneamente (quindi attivano come caratteristiche lessicali) solo
Fornitura_GF, Ditta_GF. In questo caso i 10 documenti che stiamo analizzando, nei quali ditta e fornitura occorrono assieme, da
un lato avranno un valore e un peso positivo se associati alla
classe Gare di Fornitura, mentre riceveranno un peso con valore
nullo se associati alla classe delle Prescrizioni Mediche.
Una volta prodotto il file di modello e di evento AMIS genera un file «amis.output» contenente la stessa lista del file model
con, al posto del valore iniziale 1.0, il peso calcolato.
A questo punto passiamo a classificare il nuovo documento
dal quale estraiamo le caratteristiche che ci interessano, che vengono pesate con i valori calcolati da AMIS e senza le quali il documento non potrebbe essere classificato.
A questo punto si passa a moltiplicare il peso delle caratteristiche attive di ogni classe e prendendo, così, in considerazione
solo la classe che ottiene il valore più alto. Ad esempio, calcoliamo:
49
Text to knowledge è un prototipo software sviluppato dall’Istituto di linguistica computazionale del CNR di Pisa (ILC-CNR) <http://www.ilc.cnr.it/indexnoflash.html> e dal dipartimento di linguistica dell’Università di Pisa.
Maria Taverniti
295
Peso_Prescrizione_medica=peso(Ditta_PM)*peso(Tickete_PM)
*peso(Assistito_PM)
Peso_Gara_fornitura=peso(Ditta_PM)*peso(Tickete_PM)*peso(Assistito_PM)
Se (Peso_Prescrizione_Medica > Peso_Gara_fornitura) il documento, probabilmente, sarà una precrizione, altrimenti sarà verificato il contrario.
Questo ci servirà per identificare le tipologie documentali al
fine di creare la corrispondenza col massimario di scarto e definire così la permanenza del documento nell’archivio,ovvero attivare un alert per verificare la corretta imputazione dell’evento.
Il metodo basato sulla massimizzazione dell’entropia permette – quindi – di calcolare la probabilità condizionata, dato un modello di scarto definito, che un documento sia da scartare o da
non scartare nel rispetto dell’insieme delle feature/caratteristiche
che lo rappresentano. Il risultato è composto da due vettori, Don
e Doff, ottenuti dal prodotto della somma dei valori assegnati ad
ogni feature:
Don: v<e1, e2, e3, e4, … en>on
Doff: v<e1, e2, e3, e4, … en>off
Viene, inoltre, determinato un range, oltre il quale il sistema
non può operare autonomamente poiché l’azione di scarto è meritevole di ulteriore valutazione. Nelle situazioni di incertezza il
sistema genera un alert file, richiedendo una successiva autorizzazione a procedere nella specifica attività.
3. Conclusioni e obiettivi futuri
Forse il titolo del lavoro può sembrare eccessivamente ambizioso rispetto ai risultati presentati che altro non sono che prime
ipotesi di lavoro alle quali dovrà aggiungersi, sicuramente, quella del «non scarto» cioè della conservazione in toto dei documenti digitali prevedendo un sistema di recupero delle informa-
296
A. Folino - F. Iozzi - M. Taverniti: Gestione documentale in ambiente digitale
zioni basato su un algoritmo simile a quello del PageRank. Questo, anche, in considerazione del fatto che è in essere un passaggio sempre più marcato dal documento digitale alla rappresentazione del documento digitale come frutto, quest’ultima, dell’aggregazione temporanea di dati presenti in più repository documentali aggregate in virtù solo di una specifica query e non aventi vita autonoma se non nella traccia, ovvero il log, della loro aggregazione.
Ciò che sicuramente rappresenterà la sfida nel panorama della gestione documentale dei prossimi anni è la definizione, per
ogni tipologia documentale, del set di elementi necessari a tracciare e predeterminare la vita di ogni singola risorsa documentale o unità informativa digitale pena il dover, necessariamente, pagare il prezzo della scelta randomica o restare ancorati a metodi
sicuramente consolidati ma difficilmente riproponibili in uno
scenario digitale.
297
Bibliografia
ACCART JEAN PHILIPPE, MOUNIER EVELYNE, Archives ouvertes et documentation: rôle et responsabilités des professionnels de l’information,
in «Les archives ouvertes. Enjeux et pratiques», a cura di De Ch. Aubry e
J. Janik. Parigi, ADBS, 2005.
ADELSTEIN ANDREINA, FELIU JUDIT, Relations semàntiques entre unitati lèxiques amb valor especializat i descriptores, 2001, in «Terminologia
i Documentació», I Jornada de terminologia i documentació, a cura di M.
T. Cabré, Barcellona, Istituto di Linguistica Applicata - IULA -, Università Pompeu Fabra, 2000.
AITCHISON JOHN, Thesaurus Construction and use: a practical manual,
Londra, ASLIB, 2000.
AITCHISON JOHN, A classification as a source for a thesaurus: the bibliographic classification of H. E. Bliss as a source of thesaurus terms and
structure, «Journal of Documentation», vol. XLII, n. 3, 1986.
ALLEGREZZA STEFANO, PIGLIAPOCO STEFANO, Produzione e conservazione del documento digitale, EUM, 2008.
AMERICAN HISTORICAL ASSOCIATION, Report of Ad Hoc Committee
on Manuscript, in «American Archivist», Luglio, 1948.
ANSI/NISO Z39.19-2005, Guidelines for the construction, format, and management of monolingual controlled vocabularies, Bethesda Md., NISO
Press, 2005.
ARRIGONI PAOLA, et alii, Manuale di biblioteconomia, Milano, Alpha Test, 2004.
ASSOCIATION DES ARCHIVES FRANÇAIS, Abrégé d’archivistique,, Parigi, AAF (Association des archivistes français), 2007.
ASSOCIATION DES PROFESSIONNELS DE L’INFORMATION ET DE
LA DOCUMENTATION (ADBS), Métiers et compétences: mutations et
perspectives en info-doc, in «Documentaliste Science de l’Information»,
vol. 48, n 2, giugno 2011.
ASSOCIAZIONE ITALIANA DOCUMENTAZIONE AVANZATA, «AIDAinformazioni», maggio 1986.
BALBONI PIER F., BALBONI SILVIA, Dizionario tecnico dell’edilizia e
dell’architettura. Italiano-inglese, inglese-italiano, Milano, Hoepli, 2008.
BARTOLINI ROBERTO, et alii, Text-2-knowledge: Acquisizione semi-auto-
298
A. Folino - F. Iozzi - M. Taverniti: Gestione documentale in ambiente digitale
matica di ontologie per l’indicizzazione semantica di documenti, relazione conclusiva del progetto PEKITA, CNR-ILC, Pisa, 2005.
BEARMAN DAVID, Archival Methods. Archives and Museum Informatics
Technical Report, vol. 3, n. 1, Pittsburgh, Archives and Museum Informatics, 1989.
BECHHOFER SEAN, GOBLE CAROLE, Thesaurus Construction through
Knowledge Representation, «Data & Knowledge Engineering», n. 37, Elsevier, 2001.
BÉNEL AURELIEN, Porphyry au pays des paestans: usages d’un outil d’analyse qualitative de documents par des étudiants de maitrise en iconographie grecque, in atti del convegno “Corpus en Lettres et Sciences sociales: des documents numériques à l’interprétation”, Albi, luglio 2006,
Parigi, Texto!, vol. XI, n. 2, giugno 2006.
BERRY MICHAEL J., LINOFF GORDON S., Data Mining, Milano, Apogeo
srl, 2001. Titolo originale, Mastering Data Mining, John Willey & Sons,
2000.
BERTACCINI FRANCO, NEGOSANTI PAMELA, Avvolgibile, Tapparella
o persiana avvolgibile? La variazione in socio terminologia: una ricerca
dal vivo, in atti della giornata Realiter «Terminologia e mediazione linguistica: approcci e metodi a confronto», Bertinoro, 8 giugno 2007.
BERTACCINI FRANCO, Processi di terminologizzazione e determinologizzazione nel dominio della diffusione e distribuzione del libro, in «AIDAinformazioni», a. XXVI, gennaio-giugno, n. 1-2, 2008.
BIBLIOTECA NAZIONALE CENTRALE DI FIRENZE, Nuovo Soggettario, Milano, Editrice Bibliografica, 2006.
BISOGNO PAOLO, Schema per una rete di informatica nel settore della documentazione scientifico-tecnica, Roma, CNR, 1972.
BISOGNO PAOLO, Teoria della documentazione, Milano, Angeli, 1980.
BISOGNO PAOLO, Documentazione e Biblioteconomia, Milano, 1987.
BISOGNO PAOLO, Il futuro della memoria: elementi per una teoria della
documentazione, Milano, Angeli, 1995.
BISOGNO PAOLO, Tendenze della ricerca in documentazione, in «La documentazione in Italia. Scritti in occasione del centenario della Fid», Milano, F. Angeli, 1996.
BOISARD PAUL, Pour une politique des élimination: réflexions sur la pratique des Archives de la Seine, «La Gazette des Archives», 59., 1967.
BOLES FRANK, Sampling in Archives, in «American Archivist», vol. 44,
n.2, Spring, 1981.
BONADONNA MARIA FRANCESCA, I glossari dell’energia: strumenti
per la comunicazione al cittadino, in «Terminologie specialistiche e prodotti terminologici», a cura di M.T. Zanola, Milano, EDUCatt, 2011.
Bibliografia - Sitografia
299
BONFIGLIO-DOSIO GIORGETTA, Primi passi nel mondo degli archivi,
Padova, CLEUP, 2007.
BOOMS HANS, Society and the Formation of a Documentary Heritage, in
«Archiviaria», 24., 1987.
BOWKER GEOFFREY, LEIGH STAR, Sorting things out: Classification
and its consequences, USA, The MIT Press, 2000.
BROUGHTON VANDA (a), Costruire Thesauri: strumenti per indicizzazione e metadati semantici, a cura di P. Cavaleri, traduzione di L. Ballestra e
L. Venuti, Milano, EditriceBibliografica, 2008.
BROUGHTON VANDA (b), A faceted classification as the basis of a faceted
terminology: conversion of a classified structure to thesaurus format in
the Bliss Bibliographic Classification, 2nd edition, «Axiomathes», vol.
XVIII, Springer, 2008.
CABRÈ MARIA TERESA, et alii, Terminologia i Documentació. I Jornada
de terminologia i documentació, Barcellona, Istituto di Linguistica Applicata (IULA), Università Pompeu Fabra, 2000.
CABRÈ MARIA TERESA, La terminologia tra lessicologia e documentazione, Barcellona, Istituto di Linguistica Applicata (IULA), Università
Pompeu Fabra, 2001.
CAHIER JEAN-PIERRE, Ontologies sémiotiques pour le Web socio sémantique: Etude de la gestion coopérative des connaissances avec des cartes
hypertopiques, tesi in Informatique, Laboratoire, ISTIT/Tech-CICO, a cura di M. Zacklad, Université des Technologies de Troyes, 2005.
CALZOLARI NICOLETTA, LENCI ALESSANDRO, Linguistica computazionale: strumenti e risorse per il trattamento automatico della lingua, in
«Mondo Digitale», n. 2, giugno 2004.
CAPITANI PAOLA, Formazione e gestione della conoscenza: due aspetti del
medesimo problema, in «AIDAventi», Vent’ anni di AIDA: la documentazione tra teoria e applicazioni, atti del 7° convegno Nazionale AIDA, Roma, CNR, 2003, a cura di Carla Basili e Domenico Bogliolo, Roma, AIDA, 2003.
CAPUANO NICOLA, Ontologie OWL: Teoria e pratica, in «Computer Programming», n. 148, luglio-agosto 2005.
CARDILLO ELENA, FOLINO ANTONIETTA, TAVERNITI MARIA,
GoldThes: A Faceted Thesaurus for Goldsmith Handcraftsmanship in a
Regional Context, in «Paradigms and conceptual systems in knowledge
organization», atti del “Eleventh International ISKO Conference”, 23-26
febbraio, vol. XII, a cura di Claudio Gnoli, e Fulvio Mazzocchi, Wurzburg, Ergon Verlag, 2010.
CARDILLO ELENA, FOLINO ANTONIETTA, TAVERNITI MARIA,
Towards a Thesaurus for Energy Efficiency in Building Construction: the
300
A. Folino - F. Iozzi - M. Taverniti: Gestione documentale in ambiente digitale
Italian context, in atti della conferenza «TIA 2009, 8ème conférence internationale Terminologie et Intelligence Artificielle», Tolosa, 18-20 novembre 2009.
CARUCCI PAOLA, Lo scarto come elemento qualificante delle fonti per la
storiografia, in «Rassegna degli Archivi di Stato», 35., n. 1-3, 1975.
CARUCCI PAOLA, Il documento contemporaneo. Diplomatica e criteri di
edizione, Roma, NIS, 1987.
CARUCCI PAOLA, Le fonti archivistiche: ordinamento e conservazione, Roma, Carocci, 1998.
CARUCCI PAOLA, MARIA GUERCIO, Manuale di Archivistica, Roma,
Carocci, 2008.
CASANOVA EUGENIO, Archivistica, Siena, Arti Grafiche Lazzeri, 1928.
CASSESE LEOPOLDO, Intorno al concetto di materiale archivistico e materiale bibliografico, in «Notizie degli Archivi di Stato», a. IX, 1949.
CATERINA GABRIELLA, FIORE VITTORIO, La manutenzione edilizia e
urbana: Linee guida e prassi operative, Napoli, Sistemi Editoriali, 2005.
CAVARRETTA GIUSEPPE A., MURZAKU ALEXANDER, GUARASCI
ROBERTO, La classificazione automatica dei documenti, in «Archivi»,
Vol. IV, n. 1, 2009.
CENCETTI GIORGIO, Scritti archivistici, Roma, Il Centro di Ricerca, 1970.
CENCETTI GIORGIO, Archivi e Archivisti di ieri e di oggi, in «Scritti Archivistici», Roma 1970.
CHETI ALBERTO, PARADISI FEDERICA, Facet analysis in the development of a general controlled vocabulary, in «Axiomathes», vol. XVIII,
Springer, 2008.
CHRISMENT CLAUDE, D’ un thesaurus vers une ontologie de domaine
pour l’exploration d’un corpus, in «AMETIST», INIST, settembre 2006.
CRISMENT CLAUDE, et alii, Méthodologie de transformation d’un thésaurus en une ontologie de domaine, in «Revue d’Intelligence Artificielle»,
vol. XXII, n. 1, Hermès Science Publications, 2008.
CRISMENT CLAUDE, et alii, D’ un thesaurus vers une ontologie de domaine pour l’ exploration d’ un corpus, in «AMETIST», INIST, septembre
2006.
CHUDLEY ROY, GREENO ROGER, Building construction handbook, Elsevier Ltd, Oxford, 2008.
CHUNG TERESA M., NATION PAUL, Identifying technical vocabulary, in
«System», n.32, Elsevier, 2004.
CLACK DORIS HARGRETT, (a cura di), The Making of a Code: The Issues
Underlying AACR2, Chicago, American Library Association, 1980.
CNIPA, La dematerializzazione della documentazione amministrativa, in «I
Quaderni», a cura di Enrica Massella e Maurizio Gentilini, n. 24 aprile 2006.
Bibliografia - Sitografia
301
COMITÉ DE PLANIFICATION SUR LES NORMES DE DESCRIPTION,
Regles pour la decription des documents d’archives, Ottawa (Canada),
Bureau of Canadian Archivists, 1990.
COMMITTEE ON FINDING AIDS, INVENTOIRES AND REGISTERS, A
Handbook of Techniques and Examples, Chicago, Society of American
Archivists, 1976.
COOK MICHAEL, GRANT KRISTINA, A Manual of Archival Description,
Liverpool, Society of American Archivist, 1985.
CYROT CATHERINE, PREUSS CHRISTIAN, Réingénierie de thésaurus:
une étude de cas, «Documentaliste - Science de l’Information», vol. XLVI, n. 3, 2009.
DAWOOD NASHWAN, Development of an integrated information resource
base for 4D/VR construction processes simulation, in «Automation in
Construction», vol. XII, n. 2, marzo 2003.
DELL’ORLETTA FELICE, et alii, Climbing the Path to Grammar: a Maximum Entropy Model of Subject/Object Learning, in atti del congresso
“ACL 2005 Workshop on Psychocomputational Models of Language Acquisition”, University of Michigan, Ann Arbor, (USA), 2005.
DELL’ORLETTA FELICE et alii, Dal testo alla conoscenza e ritorno, in «AIDAinformazioni», a. XXVI gennaio-giugno, n. 1-2, 2008.
DIOZZI FERRUCCIO, Documentazione, Roma, Associazione Italiana Biblioteche, 1998.
DIOZZI FERRUCCIO, Glossario di biblioteconomia e scienza dell’informazione, Milano, Editrice Bibliografica, 2003.
DOLLAR CHARLES, Archivistica Informatica, L’impatto delle tecnologie
dell’informazione sui principi e i metodi dell’archivistica, Macerata, Pubblicazioni Università di Macerata, 1992.
DOOLEY JOHN MIKE, (a cura di), Encoded Archival Description: Context,
Theory and case studies, Chicago, Society of American Archivists, 1999.
DOYLE MURIELLE, La Gestion des documents administratifs et des archives au sein des Ministères et organismes gouvernementaux, in «Archives», a. 24., n. 1-2, 1992.
DUCHEIN MICHEL, Les procédures de tri dans les Archives départementales, in «La Gazette des Archives», n. 77, 1972.
EHRENBERG RALPH, Archives & Manuscripts: Maps and Architectural
Drawings, Chicago, Society of American Archivists, 1982.
EKHOLM ANDERS, A conceptual framework for classification of construction works, in «Electronic Journal of Information Technology in Construction (Itcon)», vol. I, Stoccolma, Royal Institute of Technology, 1996.
ESOPÁ BAGOT ROSA, Extracción de terminología: elementos para la costrucción de un SEACUSE: Sistema d’Extracción Automatíca de Candi-
302
A. Folino - F. Iozzi - M. Taverniti: Gestione documentale in ambiente digitale
datos a Unidades de Significacción especializada, tesi dottorale, IULA,
Università Pompeu Fabra, Barcellona, 2002.
ETAG, Guidelines for European Technical Approval of External Thermal Insulation Composite System with rendering for the use as external insulation to the walls of buildings, Bruxelles, EOTA, 2008.
FABBRIS LUIGI, L’Indagine Campionaria, metodi, disegni e tecniche di
campionamento, Roma, NIS, 1989.
FERNELEY ELAINE, Toward the construction knowledge economy: the eCognos project, in atti del “European Conference on Information Systems
(ECIS)”, Gdansk, Polonia, giugno 6-8, 2002.
FOGLIANI ORNELLA, (a cura di), La biblioteca ibrida: verso un sistema
informativo integrato, Milano, Editrice Bibliografica, 2003.
FOLINO ANTONIETTA, OLIVERI ELISABETTA, Un progetto per la realizzazione di un centro di documentazione tecnico-scientifica per la Regione Lombardia, «Speciale ITC-CNR 2009 Ricerca e sperimentazione»,
in supplemento alla rivista “L’ Edilizia”, dicembre-gennaio 2009-2010,
Vol. CLXI, 2009.
GARSHOL LARS MARIUS, (a cura di), Leveraging the Semantics of Topic
Maps Second International Conference on Topic Maps Research and Applications, “TMRA 2006”, Leipzig, Germania, 11-12 ottobre 2006, Springer Berlin, 2007.
GARSHOL LARS MARIUS, (a cura di), Scaling Topic Maps: Third International Conference on Topic Maps Research and Applications, “TMRA
2007”, Germania, ottobre 11-12, 200, Springer Berlin, 2008.
GOH BEE H., CHU YEE L., Developping National Standards for the Classification Information in Singapore, in atti del “CIB w78 conference 2002”,
Aarhus School of Architecture, giugno 2002.
GILARDONI SILVIA, L’energia fotovoltaica nell’economia internazionale:
terminologia e comunicazione aziendale, in atti della V Giornata scientifica Realiter “Terminologia e plurilinguismo nell’economia internazionale”, Milano, Università Cattolica del Sacro Cuore, 9 giugno 2009.
GIORDANO VIRGILIO, L’archivistica e la moderna tecnologia, Roma, S.
Sciacca, 1974.
GIUNCHIGLIA FAUSTO, MALTESE VINCENZO, Ontologie leggere a faccette, Technical Report DISI-10-005, Ingegneria e Scienza dell’Informazione, University of Trento, gennaio 2010.
GNOLI CLAUDIO, Coordinazione, ordine di citazione e livelli integrativi in
ambiente digitale, in «Bibliotime», a. VI, n. 1, marzo 2003.
GNOLI CLAUDIO, Classificazione a faccette, Roma, Associazione Italiana
Biblioteche, 2004.
GNOLI CLAUDIO, VITTORIO MARINO, LUCA ROSATI, Organizzare la
Bibliografia - Sitografia
303
conoscenza. Dalle biblioteche all’architettura dell’informazione per il
Web, Milano, HopsTecniche Nuove, 2006.
GNOLI CLAUDIO, Facets: A Fruitful Notion in Many Domains, in «Axiomathes», vol. XVIII, n. 2, Paesi Bassi, 2007.
GNOLI CLAUDIO, Categories and Facets in Integrative Levels, in «Axiomathes», vol. XVIII, Paesi Bassi Springer, 2008.
GORMAN MICHAEL, The Concise AACR2, Chicago, American Library Association, 1989.
GRACY II DAVID B., Archives and Manuscripts: Arrangement and Description, Chicago, Society of American Archivists, 1977.
GREGORY TULLIO, MORELLI MARCELLO, L’eclisse delle memorie, Roma-Bari, Laterza, 1994.
GUARASCI ROBERTO, Le Viste Documentali, in «Conservare il Digitale»,
a cura di S. Pigliapoco, EUM, 2010.
GUARASCI ROBERTO, ROVELLA ANNA, MARIA TAVERNITI, Metodi
per la selezione automatica dei documenti, in «Culture del testo e del documento», Le discipline del libro nelle biblioteche e negli archivi, vol. 29,
2009.
GUARASCI ROBERTO, ROVELLA ANNA, TAVERNITI MARIA, Archivi
digitali e profili formativi nell’ UE, in “Books seem to me pestilent things.
Studî in onore di Piero Innocenti per i suoi 65 anni”, Manziana, (Roma),
Vecchiarelli, vol. 4, 2011.
GUERCIO MARIA, Rischi e promesse dell’innovazione tecnologica. I Conservatori del patrimonio documentario e la cooperazione fra archivisti e
bibliotecari, in «Bollettino AIB», n. 2, 2001.
GUERCIO MARIA, Il rinnovamento dei contenuti e degli strumenti didattici
nell’insegnamento dell’archivistica, in «Documenti & Archivi», a cura di
Roberto Guarasci, Cosenza, Centro editoriale e Librario Università della
Calabria, vol. 22, 2002.
HAWORTH KENT M., Standardizing Archival Description in Canada, in
«Archivi e Computer», I, 1991.
HAWORTH KENT M., La fedeltà ai principi archivistici. Il futuro della selezione documentaria, della gestione dei documenti e dell’inventariazione
nel Nord America, in L’Archivistica alle soglie del 2000, a cura di Oddo
Bucci, Macerata, Pubblicazioni dell’Università di Macerata, 1992.
HENSEN STEVEN L., Archivi, manoscritti e documenti. Manuale di catalogazione per archivi storici, società storiche e biblioteche che possiedono
manoscritti, San Miniato (Pisa), Archilab, 1996.
HOURCADE JEAN CHARLES, LALOE FRANCK, SPITZ ERICH, Longévité de L’Information Numerique, Monts, EDP, 2010.
IACOVELLA ANDREA, BÉNEL AURÉLIEN, PÉTARD XAVIER, HELLY
304
A. Folino - F. Iozzi - M. Taverniti: Gestione documentale in ambiente digitale
BRUNO, Corpus scientifiques numérisés: Savoirs de référence et points
de vue des experts, a cura di R.T. Pédauque, in «La redocumentarisation
du monde», Tolosa, Cépaduès, 2006.
INTERNATION COUNCIL ON ARCHIVES, Statement of Principles Regarding Archival Description, in «Archivi e Computer», vol. I, 1991.
INTERNATIONAL COUNCIL ON ARCHIVES, ISAAR (CPF): Standard Internazionale per i record d’autorità archivistici di enti, persone, famiglie.
Traduzione italiana di ISAAR (CPF). International Standard Archival Autority Records for Corporate Bodies, persons and families = Standard Internazionale per i record d’autorità archivistici di enti, persone, famiglie,
International Standard Archival Authority Records for Corporate Bodies,
persons and Families, International Council on Archives, 2004.
INTERNATIONAL COUNCIL ON ARCHIVES, ISAD(G): General International Standard Archival Description, Stoccolma (Svezia), International
Council on Archives, 1999.
INTERNATIONAL COUNCIL ON ARCHIVES, ISDF: International Standard for Describing Function, a cura del Committee on Best Practices and
Standards, Dresda (Germania), International Council on Archives, 2007.
INTERNATIONAL COUNCIL ON ARCHIVES, ISDIAH: International
Standard For Describing Institutions with Archival Holdings, International Council on Archives, 2008.
INTERNATIONAL COUNCIL ON ARCHIVES, Statement of Principles Regarding Archival Description, in «Archivi e Computer», vol. I, 1991.
INTERNATIONAL NUCLEAR INFORMATION SYSTEM (INIS),
ENERGY TECHNOLOGY DATA EXCHANGE (ETDE), Joint Thesaurus, Part I & II, Joint Reference Series n. 1 (Rev.2), International Atomic
Energy Agency, Vienna, 2007
JOINT STEERING COMMITTEE FOR REVISION OF AACR, Regole di
catalogazione angloamericane: seconda edizione, revisione del 1988, a
cura di Michael Gorman e Paul W. Winkler, ed. italiana a cura di Rossella Dini e Luigi Crocetti, Milano, Bibliografica, 1998.
KULLBACK SOLOMON, Information Theory and Statistics, Dover Books
on Mathematics, Dover, 1997.
LAUSER BORIS, From thesauri to ontologies: a short case study in the food
safety area in how ontologies are more powerful than thesauri - from thesauri to RDFS to OWL, in atti del “ECDL 2001 OAI Workshop”, 2001.
LENCI ALESSANDRO, PIRRELLI VITO, MONTEMAGLI SIMONETTA,
Testo e computer: Elementi di Linguistica Computazionale, Roma, Carocci Editore, 2005.
LEWINSON PAUL, Archival Sampling, in «American Archivist», ottobre
1957.
Bibliografia - Sitografia
305
LIMA CELSON, Controlled Vocabularies in the European Construction Sector: Evolution, Current Developments, and Future Trends, Complex Systems Concurrent Engineering, in «Expanding the Knowledge economy»,
a cura di Paul Canningham, Londra, IOS Press, 2007.
LIMA CELSON, ZARLI, ALAIN, et alii, A Historical Perspective on the evolution of Controlled Vocabularies in Europe, in atti del “CIB W102 3rd International Conference”, 2007.
LUTZ MAIKER, PARK JACK, (a cura di), Charting the Topic Maps Research and Applications Landscape First International Workshop on Topic
Map Research and Applications, “TMRA” 2005, Germania, 6-7 ottobre
2005, Revised Selected Papers, Springer Berlin, 2006.
MAHE SYLVAIN, RICARD BBENOÎT, HAÏK PHILIPPE, FOLINO ANTONIETTA, MUSNIK NNOÉMIE, Gestion des connaissances et systèmes
d’organisation de connaissances: Premier modèle et retours d’expérience
industriels, in «Applications à base de SOC hétérogènes», a cura di Manuel Zacklad e Alain Giboin, RSTI - DN 2010/2, vol. 13, Parigi, Lavoisier, 2010.
MANIEZ JAQUES, Des classifications au thésaurus: du bon usage des facettes, «Documentaliste-Science de l’Information», vol. XXXVI, n. 4-5,
1999.
MANNING CHRISTOPHER D., An Introduction to Information Retrieval,
online, Cambridge, Cambridge University Press, 2009.
MARLEAU YVES, Exploitation des facettes et des ontologies sémiotiques
pour la gestion documentaire, in “Traitements et pratiques documentaires:
vers un changement de paradigme?”, Parigi, ADBS Editions, 2008.
MAS SABINE, Classification à facettes et modèles à base de points de vue:
Différences et complémentarité, in atti del 36° congresso annuale dell’Association Canadienne des Sciences de l’Information, «ACSI’2008», 2008.
MCENERY TONY, WILSON ANDREW, Corpus Linguistics, in «Edinburgh
Textbooks in Empirical Linguistics», Edinburgo, Edinburgh University
Press, 2001.
MCLUHAN MARSHAL, La Galassia Gutenberg, la nascita dell’uomo tipografico, Roma, Armando Editore, 2004.
MESCHINI FEDERICO, Le mappe topiche: come imparai a non preoccuparmi e ad amare i metadati, in «Bollettino AIB», n. 1, 2005.
MEYRIAT JEAN, La documentazione: elementi per un riesame, in “La Documentazione in Italia. Scritti in occasione del Centenario della FID”, a
cura di Augusta Maria Paci, Milano, F. Angeli, 1996.
MICHETTI GIOVANNI, (a cura di), EAD. Descrizione archivistica codificata. Dizionario dei marcatori, Urbino (Roma), ICCU, 2005.
MILLER FREDRIC M., Arranging and Describing Archives and Manu-
306
A. Folino - F. Iozzi - M. Taverniti: Gestione documentale in ambiente digitale
scripts, Chicago, Society of American Archivists, 1990.
MIYAO YUSUKE, TSUJII JUN’ICHI, A Maximum Entropy Estimator For
Feature Forests, in atti del “Human Language Technology Conference”,
2002.
MONTEMAGNI SIMONETTA, Architecture and functioning of a System for
the acquisition of Taxonomical information from Dictionary Definitions,
in atti della IV conferenza “Computational Lexicography and text research, COMPLEX”, Budapest, 1996.
MOUREN RAPHAEL, (a cura di), Manuel du patrimoine en bibliothèque,
Parigi, ed. Electre, 2007.
MUSNIK NOEMIE, L’indexation et la recherche d’information « en contexte»: la complémentarité de deux approches de classification, “IC 2009,
XX Journées Francophones d’Ingénierie des Connaissances”, Hammamet,
2009.
MYAO YUSUKE, JUN’ICHI T., Maximum entropy estimator for feature forests, 2002, in atti della conferenza “Human Language Technology, HLT2002”, San Diego, 2002.
NATALYA F. NOY, DEBORAH L. MCGUINNESS, Ontology Development
101: A guide to creating your first ontology, Stanford Knowledge Systems
Laboratory Technical Report KSL-01-05 and Stanford Medical Informatics Technical Report SMI-2001-0880, marzo 2001.
NAUGLER HAROLD, Evaluation et tri des documents informatiques en archivistique: une étude RAMP, accompagnée de principes directeurs, Parigi, Unesco, 1986.
NEMER FRANÇOIS, Cocteau. Sur le fil, Parigi, GALLIMARD, 2003.
NONAKA IKUJIRO, TAKEUCHI HIROTAKA, The Knowledge creating
company - Creare le dinamiche dell’innovazione, a cura di Umberto Frigelli e Kazuo Inumaru, Oxford, Oxford University Press, 1995.
NOY NATALYA F., MC GUINNESS DEBORAH L., Ontology Development
101: A guide to creating your first ontology, Stanford Knowledge Systems
Laboratory Technical Report KSL-01-05 and Stanford Medical Informatics Technical Report SMI-2001-0880, Marzo 2001.
OTLET PAUL, Le traité de documentation. Le livre sur le livre, Bruxelles,
Van Keerberghen, 1934.
PACI AUGUSTA M., La Documentazione in Italia. Scritti in occasione del
centenario della Fid, (a cura di), Milano, Angeli, 1996.
PARK JACK, HUNTING SAM, XML Topic Maps: Creating and Using Topic
Maps for the Web, Boston, Addison-Wesley Longman, 2002.
PASCERI ERIKA, Selezione e scarto dei documenti, (tesi magistrale), Rende, Università della Calabria, 2009.
PELLEGRINO GIUSEPPINA, Classificazioni, vita quotidiana ed etica del-
Bibliografia - Sitografia
307
l’ambiguità nell’approccio ecologico di Bowker e Star, in «Daedalus»,
2006.
PIGLIAPOCO STEFANO, La memoria digitale delle amministrazioni pubbliche, Santarcangelo di Romagna, Maggioli Editore, 2005.
PIOTTI SONIA, L’informazione al consumatore : la terminologia delle fonti
energetiche e le variazioni negli usi testuali, in «AIDAinformazioni», a.
XXVI, gennaio-giugno, n. 1-2, 2008.
PITTI DANIEL, DUFF WENDY M., (a cura di), Encoded archival description on the internet, Oxford, The Haworth information press, 2001.
PLESSI GIUSEPPE, Avvio all’archivistica, Bologna, Fotocromo, 1983.
RANGANATHAN SHIYALI R, The Five Laws of Library Science, Bangalore, India, Sarada Ranganathan Endowment for Library Science, 1957
RANGANATHAN SHIYALI R., Colon Classification: basic classification,
Mumbai, Asia Publishing House, 1977.
RAPHAELE MOUREN, Manuel du patrimoine en bibliothèque, Parigi, ed.
Electre, 2007.
RATNAPARKHI ADWAIT, Maximum Entropy Models for Natural Language
Ambiguity Resolution, (tesi dottorale), Università della Pennsylvania, 1998.
RICCI FRANCESCA, Gli standard internazionali di descrizione archivistica
fino a ISAD(G) 2, in «Rassegna degli archivi di Stato», anno LXIII – n.1,
Roma, gennaio-aprile 2003.
MARIJKE-VAN HEUSDEN ROGGEMA, The challenge of developing a
competence-oriented curriculum: an integrative framework, in «Library
review», a. LIII, n. 2, 2004.
ROMITI ANTONIO, Archivistica generale, Lucca, Civita, 2002.
ROMITI ANTONIO, Lo scarto archivistico in Italia: analisi e proposte, in Lo
scarto. Teoria, normativa e prassi, a cura di Gilberto Zacché, San Miniato, Archilab, 2002.
ROSATI LUCA, et alii, Faceted Classification for community service using
CRG standard categories, Barcellona, ISKO, 2005.
ROSENFELD LOUIS, MORVILLE PETER, Information Architecture for the
World Wide Web, Pechino, O’Reilly, 2002.
ROSSI ELENA A., GUERCIO MARIA, La Metodologia per la definizione
dei piani di classificazione in ambiente digitale, Roma, SSPA, 2005.
RUTA CATALDO DINO, TURATI CARLO, Organizzare il Knowledge management, Milano, EGEA, 2002
SACCO GIOVANNI MARIA, TZITZIKAS YANNIS, Dynamic Taxonomies
and Faceted Search: Theory, Practice, and Experience, «The information
retrieval series», vol. 25, Springer, 2009.
SCHELLENBERG THEODORE. R., Modern archives: principles and techniques, Chicago, University of Chicago Press, 1956.
308
A. Folino - F. Iozzi - M. Taverniti: Gestione documentale in ambiente digitale
SCHELLENBERG THEODORE R., The Appraisal of Modern Records,
«Bulletins of the National Archives», Washington, n. 8, 1956.
SCHELLENBERG THEODORE. R., The Management of Archives, New
York, Columbia University Press, 1965.
SERRAI ALFREDO, Le classificazioni: idee e materiali per una teoria e per
una storia, Firenze, Leo S. Olschki Editore, 1970.
SHEARER JAMES R., A practical exercise in building a thesaurus, in «Cataloging & classification Quarterly», vol. XXXVII, n. 3, 2006.
SINCLAIR JOHN, Trust the text: language, corpus and discourse, Londra,
Routledge, 2004.
SOCIETY OF AMERICAN ARCHIVIST, Describing Archives: A Content
Standard (DACS), Chicago, SAA, 2007.
SOERGEL DAGOBERT, Reengineering Thesauri for New Applications: The
AGROVOC Example, in «Digit. Inf.», vol. IV, n. 4, 2004.
SOLIMINE GIOVANI, Introduzione allo studio della biblioteconomia. Riflessione e documenti, Roma, Vecchiarelli, 1999.
SOLIMINE GIOVANNI, Gestire il cambiamento. Nuove metodologie per il
management delle biblioteche, Milano, Editore Bibliografica, 2003.
SPITERI LOUISE F., The Essential Element of Faceted Thesauri, in «Cataloging & Classification Quarterly», The Haworth Press, Inc, vol. XXVIII,
n. 4, 1999.
STOCKING BILL, QUEYROUX FABIENNE, (a cura di), Encoding across
frontiers, in atti della conferenza europea su “Encoded Archival Description and Context (EAD and EAC)”, Parigi, Francia 7-8 ottobre 2004, Binghamton, NY, The Haworth Information Press, 2004.
TAMMARO ANNA MARIA, L’insegnamento universitario delle discipline
dell’informazione dopo la riforma della didattica, in «AIDAventi», atti
del 7° Convegno nazionale, 2003.
TAMMARO ANNA MARIA, Qualità e competenze: il contesto europeo per
l’accreditamento dei corsi ed il riconoscimento dei professionisti dell’informazione, in «AIDAinformazioni», a. XXIII, n. 4, 2005.
TAVERNITI MARIA, Tra terminologia e documentazione: estrazione automatica di voci indice da corpora documentali della Pubblica Amministrazione, in «AIDAinformazioni», atti del Convegno Nazionale Ass.I.Term
“I-TerAnDo”, Università della Calabria, 5-7- giugno 2008, Roma, AIDA,
n. 1-2, 2008.
TEICH ELKE, FRANKHAUSER PETER, Exploring a corpus of scientific
texts using data mining, in «Language and Computers», vol. LXXI, 2009.
TERAI TATSUO, Development of the Construction Classification System in
Japan (JCCS), in «Tsinghua Science and Technology», vol. XIII, n. S1, ottobre 2008.
Bibliografia - Sitografia
309
THOMAS ALAIN R., Teach yourself thesaurus: Exercises, Readings, Resources, in «Cataloging & Classification Quarterly», vol. XXXVII, n. 3, 2006.
TOLA VITTORIA, MICHETTI GIOVANNI, La conservazione del digitale:
una collana, un progetto. La pubblicazione di EAD, in «DigItalia. Rivista
del digitale nei beni culturali», n. 1, Roma, ICCU, 2006.
TREMOLADA LUCA, L’era degli ingegneri umanisti, in «Il Sole 24ore»,
giovedì 10 agosto 2006.
TUDHOPE DOUGLAS, BINDING CERI, Faceted Thesauri, in «Axiomathes», vol. XVIII, n. 2, giugno 2008.
VASSALLO SALVATORE, Le mappe topiche come un ponte fra beni culturali di natura diversa, in «Culture del testo e del documento», n. 22, 2006.
VICKERY BRIAN, Faceted Classification for the Web, in «Axiomathes»,
vol. XVIII, n. 2, giugno 2008.
VITALI STEFANO, Un ciclo che si chiude: la seconda edizione di ISAAR
(CPF), in «Rassegna degli archivi di Stato», anno LXIII, n. 1, Roma, gennaio-aprile 2003.
WALNE PETER, Dictionnaire de terminologie archivistique, Parigi, Conseil
International des archives, 1984.
WESTON PAUL G., Dal controllo bibliografico alle reti documentarie, in
«Biblioteche Oggi», n. 7, 2002.
WIELINGA BOB J., From Thesaurus to Ontology, in atti della I “International Conference On Knowledge Capture”, New York, ACM, 2001.
WIELINGA BOB J., et alii, From Thesaurus to Ontology, in atti della I «International Conference On Knowledge Capture», New York, ACM, 2001.
WINCH GRAHAM M., Managing Construction Projects, Oxford, Blackwell
Publishing LTD, 2002.
ZACCHE GILBERTO, Lo scarto. Teoria, normativa e prassi, San Miniato,
Archilab, 2002.
ZACKLAD MANUEL, Introduction aux ontologies sémiotiques dans le Web
Socio Sémantique, atti della conferenza “Ingénierie des Connaissances”,
Nizza, 2005.
ZACKLAD MANUEL, et alii, Hypertopic: une métasémiotique et un protocole pour le Web socio-sémantique, in atti della «18eme journées francophones d’ingénierie des connaissances (IC2007)», Francky Trichet
(Eds.), Cépaduès, 2007
ZAHER HEDI, et alii, (a), A conflictual co-building method with Agoræ, in
atti di “COOP’06 Workshop on Knowledge Sharing in organizations”, 912 maggio 2006, Carry-le-Rouet, Francia, 2006.
ZAHER HEDI, et alii., (b) The Agorae/Hypertopic approach, in atti del “International Workshop IKHS - Indexing and Knowledge in Human Sciences”, Nantes, SdC 2006.
310
A. Folino - F. Iozzi - M. Taverniti: Gestione documentale in ambiente digitale
ZAHER HEDI, et alii, De la recherche d’information à une recherche ouverte d’information, in atti della «4th International Conference Sciences of
Electronic, Technologies of Information and Telecommunications», Tunisia, 25-29 marzo, 2007.
ZANOLA MARIA TERESA, Energie tradizionali e rinnovabili: proposte di
interventi terminologici, in «AIDAinformazioni», a. XXVI, gennaio-giugno, n. 1-2, 2008.
ZANOLA MARIA TERESA, Glossari e divulgazione della conoscenza: la
terminologia dei sistemi fotovoltaici, in atti del Convegno Ass.I.Term
2009, n. 12, 2010.
311
Bibliografia - Sitografia
Sitografia*
ACCART JEAN-PHILIPPE, Le métier de spécialiste de l’information documentaire <http://www.hesge.ch/heg/metiers_formations/metiers/doc/metier_id.pdf>.
BIANCHINI MARCO, I Knowledge workers al servizio dell’organizzazione,
<http://itconsult.it>
BIBLIOTHÈQUE ET ARCHIVES CANADA, <http://www.collectionscanada.gc.ca/007/002/007002-2012-f.html>.
BIENVENU AKODIGNA, Société de l’information: enjeux et défis pour le
spécialiste de l’information documentaire au Bénin, 2004, dell’«Association pour le développement des activités Documentaires au Benin», all’url: <http://www.adadb.bj.refer.org>.
CARUCCI PAOLA, (a cura di), Glossario di termini archivistici,
<http://www.archivi.beniculturali.it/tools/DGA-glossario/>.
CHARETTE ROBERT P., MARSHALL HAROLD E., Uniformat II: Elemental Classification for Building Specifications, Cost Estimating and Cost
Analysis, 1999, <http://fire.nist.gov/bfrlpubs/build99/PDF/b99080.pdf.>.
CHETI ALBERTO, Manuale ipertestuale di analisi concettuale, 1996,
<http://www.cib.unibo.it/manuals/html_1/HOME.HTML>.
CNIPA, Dizionario dei profili di competenza per le professioni ICT - Manuale operativo delle Linee guida sulla qualità dei beni e dei servizi ICT per
la definizione ed il governo dei contratti della Pubblica Amministrazione,
2010, <http://www.digitpa.gov.it/qualita_ict_manuali/10-dizionario-deiprofili-competenza-le-professioni-ict>.
DeMArch, <http://www.bivi.fonctions-documentaires.afnor.org/livres-blancs
/demarch-recommandation-de-description-des-manuscrits-et-fonds-d-archives>.
ESTEVA MARIA, Bits and Pieces of Text: Appraisal of a Natural Electronic
Archive, “Digital Humanities 2007”, <http://www.digitalhumanities.org/
dh2007/abstracts/xhtml.xq?id=136>.
FRANZESE PAOLO, La descrizione archivistica. Gli standard internazionali ISAD (G) e ISAAR (CPF): analisi, sperimentazione e applicazioni
<http://www.anai.it>.
GEORGESCU MARA, La variazione nella terminologia dello sviluppo sostenibile, in atti del Convegno “Ass.I.Term 2009”, n.12, 2010, <http://publifarum.farum.it/ezine_printarticle.php?id=174>.
312
A. Folino - F. Iozzi - M. Taverniti: Gestione documentale in ambiente digitale
IOZZI FRANCESCA, TAVERNITI MARIA, Valutazione e selezione dei documenti: il manuale europeo, in «AIDAInformazioni», <http://www.aidaweb.it>.
MERCIER HELEN, The Grigg system and beyond, in “The National Archives: Appraisal policy”, The National Archives, Regno Unito, 2004,
<http://www.nationalarchives.gov.uk/documents/information-management/background_appraisal.pdf>.
MINISTERO PER L’INNOVAZIONE E LE TECNOLOGIE, La dematerializzazione della Pubblica amministrazione. Libro bianco del gruppo di lavoro
interministeriale per la dematerializzazione della documentazione tramite
supporto digitale, a cura di CNIPA, 2006. <http://www.digitpa.gov.it/gestione-documentale/dematerializzazione-/>.
MORFINI LUISA, Sistemi a cappotto, L’European Technical Approval,
2004, <http://www.itc.cnr.it/Articoli/2004_12_Morfini.pdf>.
PASSAROTTI MARCO, La lemmatizzazione. Cos’è, perché si deve fare, come io credo convenga farla, 2002, < http://www.griseldaonline.it/informatica/3passarotti.htm>.
PITTI V. DANIEL, Descrizione del soggetto produttore. Contesto archivistico codificato <http://www.sba.unifi.it/ac/relazioni/pitti_ita.pdf>.
RIEDIGER HELLMUT, Cos’è la terminologia e come si fa un glossario,
2010, <http://www.term-minator.it/corso/doc/mod3_termino_glossa.pdf>.
ROSATI LUCA, La classificazione a faccette fra Knowledge Management et
Information Architecture, It Consult, 2003, <http://www.itconsult.it/knowledge/articoli/pdf/itc_rosati_faccette_e_KM.pdf>.
SERAFINA SPINELLI, Introduzione ai thesauri, 2007, <http://www.biocfarm.unibo.it/~spinelli/indicizzazione/thesauri.htm>.
SERAFINA SPINELLI, Introduzione all’indicizzazione, 2006, <http://www.
biocfarm.unibo.it/~spinelli/indicizzazione/>.
SERVICE INTERMINISTÉRIEL DES ARCHIVES DE FRANCE,, «Bulletin
sur les ressources archivistiques numériques», n° 43, 2011, <http://www.
archivesdefrance.culture.gouv.fr/static/5236>.
VEEN JEFF, Faucet Facets: A Few Best Practices for Designing Multifaceted
Navigation Systems, 2004, <http://www.adaptivepath.com/ideas/e000034>.
VITALI STEFANO, SAVOJA MAURIZIO, (trad. italiana a cura di), ISAD (G):
General International Standard Archival Description, risorsa Web disponibile al seguente url: <http://www.anai.org/attivita/N_isad/Isad_main.htm>.
VITTORIO MARINO, Classificazioni per il Web. I vantaggi dell’adozione di
schemi a faccette, Associazione Italiana Biblioteche (AIB) - WEB, 2004,
< http://www.aib.it/aib/contr/marino1.htm>.
Bibliografia - Sitografia
313
Di autore ignoto:
<ftp://cenftp1.cenorm.be/PUBLIC/CWAs/e-Europe/eConst/cwa15142-002004-Dec.pdf>.
<http://160.97.46.10/labdoc/corsi/c08/materiale/Analisi_concettuale.pdf>.
<http://archimag.com/fr/accueil-archimag/magazines/archimagn222/outils/construire-un-thesaurus.html>.
<http://archivesetmanuscrits.bnf.fr>.
<http://archivio.cnipa.gov.it/site/it-IT/Attivit%C3%A0_-_Archivio_storico
/Formati_aperti/>.
<http://ast.signum.sns.it/>.
<http://atlas.dta.cnr.it/thesauri/EARTH/themes.php>.
<http://biblio.ing.unibo.it/pdf/brochure_iconda_marzo_04_DEF.pdf>.
<http://biocfarm.unibo.it/~spinelli/indicizzazione/thesauri.htm>.
<http://burc.regione.campania.it/eBurcWeb/BurcPdfOutput/Burc_2010_1_7_
8_4.pdf>.
<http://catalogue.bnf.fr/jsp/recherche_autorites_rameau.jsp?nouvelleRecherche=O&host=catalogue>.
http://ccfr.bnf.fr>.
http://ccfr.bnf.fr/portailccfr/jsp/index.jsp>.
<http://code.google.com/p/eaditor/>.
<http://demo.pleade.com/pages/index.html>.
<http://dossierdoc.typepad.com/descripteurs/>.
<http://dublincore.org/>.
<http://dublincore.org/documents/2005/11/07/usageguide/qualifiers.shtml>.
<http://dublincore.org/documents/dc-xml-guidelines/>.
<http://eaditor.blogspot.com/>.
<http://ec.europa.eu/information_society/activities/econtentplus/index_en.htm>.
<http://ekolab.iia.cnr.it/earth.htm>.
<http://en.wikipedia.org/wiki/Common_Arrangement_of_Work_Sections>.
<http://facetmap.com/browse/>.
<http://files.opaals.eu/SEAMLESS/D2.3_B&C_sector_ontology.pdf>.
<http://findingaid.lib.byu.edu/>.
<http://fire.nist.gov/bfrlpubs/build99/PDF/b99080.pdf>.
<http://irc-wae.irc.nrc.ca/thesaurus/concrete%28materials%29.html>.
<http://irc-wae.irc.nrc.ca/thesaurus/ventilating_equipment.html>.
<http://itc.scix.net/data/works/att/w78-2001-12.content.pdf>.
<http://kalliope.staatsbibliothekberlin.de/verbund/rna_berlin_wien_mastercopy_08_02_2010.pdf>.
<http://nlp.stanford.edu/IR-book/pdf/irbookprint.pdf>.
<http://publifarum.farum.it/ezine_printarticle.php?id=159>.
314
A. Folino - F. Iozzi - M. Taverniti: Gestione documentale in ambiente digitale
<http://publifarum.farum.it/ezine_printarticle.php?id=174>.
<http://realiter.net/IMG/pdf/Oliveri_Baroniello_Folino_Scaioli.pdf>.
<http://reinout.vanrees.org/afstudeerverslag/lexicon.html>.
<http://saa.archivists.org/4DCGI/committees/SAACSTANDARD.html?Action=Show_Comm_Detail&CommCode=SAA**C-STANDARD&Time=-404369427>.
<http://saint-denis.enc.sorbonne.fr/>.
<http://services.economia.unitn.it/didamatica2009/Atti/lavori/adorni2.pdf>.
<http://staff.polito.it/silvano.rivoira/Corso/express/sld002.htm>.
<http://thes.bncf.firenze.sbn.it/info.htm>.
<http://thes.bncf.firenze.sbn.it/termine.php?id=4758>.
<http://trovabile.org/articoli/guida-alla-classificazione>.
<http://trt.ifnet.it/lexicon/search.aspx>.
<http://uta.iia.cnr.it/earth.htm>.
<http://www.aacr2.org/index.html>.
<http://www.acca.it/euleb/it/glossary/index13.html>.
<http://www.adaptivepath.com/ideas/e000034>.
<http://www.adobe.com/devnet/xmp/pdfs/XMPSpecificationPart1.pdf>.
<http://www.adobe.com/products/xmp/overview.html>.
<http://www.adobe.com/products/xmp/pdfs/whitepaper.pdf>.
<http://www.afnor.org/groupe/a-propos-d-afnor/qui-sommes-nous>.
<http://www.agsenergy.it/3-tecnologia/5-dizionario-fotovoltaico.htm#t>.
<http://www.gassales.it/Glossario.htm>.
<http://www.aib.it/aib/contr/broughton1.htm#2.3>.
<http://www.aib.it/aib/contr/marino1.htm>.
<http://www.alfresco.com/it/>.
<http://www.apenet.eu/>.
<http://www.archiservices.it/portal/default.asp?lang=ita&sez=glossario&id=
1227&idcategoria=1317>.
<http://www.architettoinrete.it/Web_glossarioAlfabeto.asp>.
<http://www.archivesdefrance.culture.gouv.fr/>.
<http://www.archivi.beniculturali.it/tools/DGA-glossario/>.
<http://www.archivists.org/saagroups/ead/>.
<http://www.bfrl.nist.gov/oae/publications/nistirs/6389.pdf>.
<http://www.blissclassification.org.uk/bchist.shtml>.
<http://www.bnf.fr>.
<http://www.bnf.fr/fr/professionnels/normes_catalogage/a.ead_demarch.html.>.
<http://www.bonnespratiques-ead.net>.
<http://www.bstecnologie.it/energia-solare/energia-solare-fotovoltaica/glossario-fotovoltaico.html>.
<http://www.buildingsmart.no/sites/default/files/About_BARBi.htm>.
Bibliografia - Sitografia
315
<http://www.calames.abes.fr>.
<http://www.cdncouncilarchives.ca/f-archdesrules.html>.
<http://www.clir.org/pubs/reports/pub91/contents.html>.
<http://www.cognivaresearch.org/>.
<http://www.cpic.org.uk/en/publications/uniclass-listing.cfm>.
<http://www.csinet.org/s_csi/sec.asp?CID=1377&DID=11339>.
<http://www.digitpa.gov.it/>.
<http://www.edilbase.com/utility.php?selezione=1>.
vhttp://www.ediliziaecostruzioni.com/materiali-da-costruzione/glossario-materiali-costruzioni.php?materialiedili=glossariomaterialidacostruzioni>.
<http://www.eionet.europa.eu/gemet>.
<http://www.energethics.it/page/270/Glossario.html>.
<http://www.energia-alternativa-rinnovabile.it/Glossario.php>.
<http://www.epinions.com>.
<http://www.europeana.eu/portal/>.
<http://www.european-heritage.net/sdx/herein/thesaurus/consult.xsp.
<http://www.fao.org/aims/ag_intro.htm>.
<http://www.gassales.it/Glossario.htm>.
<http://www.getty.edu/research/conducting_research/vocabularies/aat_in_de
pth.pdf>.
<http://www.getty.edu/research/conducting_research/vocabularies/aat/>.
<http://www.greenformat.com/>.
<http://www.griseldaonline.it/informatica/3passarotti.htm>.
<http://www.gse.it/glossario/Pagine/Glossario.aspx>.
<http://www.gurs.regione.sicilia.it/Gazzette/g09-18o/g09-18o-a.pdf>.
<http://www.hypertopic.org/index.php/Agorae>.
<http://www.hypertopic.org/index.php/Porphyry>.
<http://www.iai-international.org/>.
<http://www.iai-tech.org/products/ifc_specification/index_html>.
<http://www.iai-tech.org/products/related-specifications/ifd_specification>.
<http://www.ibc-bim.ca/resources.asp>.
<http://www.iconda.org/>.
<http://www.ilc.cnr.it/indexnoflash.html>.
<http://www.il-fotovoltaico.com/glossario.html>.
<http://www.indoor.apat.gov.it/site/_contentfiles/00000000/52_Climatizzazione%20e%20ventilazione.pdf>.
<http://www.informationarchitecture.it/struemet/metodi_classfaccette.shtml>.
<http://www.iso.org/iso/iso_catalogue/catalogue_tc/catalogue_detail.htm?cs
number=23836>.
<http://www.itc.cnr.it/Articoli/2004_12_Morfini.pdf>.
<http://www.itconsult.it/knowledge/articoli/pdf/itc_rosati_faccette_e_KM.pdf>.
316
A. Folino - F. Iozzi - M. Taverniti: Gestione documentale in ambiente digitale
<http://www.jeancocteau.net/comite_fr.php>.
<http://www.jfklibrary.org/Research/Search-the-%20Digital-Archives.aspx>.
<http://www.kta.com/knowledge/PACE2007/melampy.pdf>.
<http://www.kta.com/Specs-MasterFormat.pdf>.
<http://www.loc.gov/ead/index.html>.
<http://www.loc.gov/marc/umb/>.
<http://www.loc.gov/standards/mets/>.
<http://www.loc.gov/standards/mods/>.
<http://www.loc.gov/z3950/agency/>.
<http://www.mercatoelettrico.org/it/tools/glossario.aspx>.
<http://www.miskatonic.org/library/facet-web-howto.html>.
<http://www.netconcrete.info/dizionario.php>.
<http://www.nrc.ca/irc/thesaurus/welcome.html>.
<http://www.nrc-cnrc.gc.ca/dbtw-wpd/textbase/irc/subject_search.html>.
<http://www.omniclass.org/about.asp>.
<http://www.omniclass.org/CSI_OmniClass-IFD_2008.pdf>.
<http://www.omniclass.org/pdf.asp?id=7&table=Table 22>.
<http://www.omniclass.org/pdf.asp?id=8&table=Table 23>.
<http://www.omniclass.org/tables/OmniClass_11_2006-03-28.pdf>.
<http://www.omniclass.org/tables/OmniClass_Main_Intro_2006-03-28.pdf>.
<http://www.ontopia.net/topicmaps/materials/tao.html>.
<http://www.ontopia.net/topicmaps/materials/tm-vs-thesauri.html>.
<http://www.openarchives.org/pmh/>.
<http://www.pdflib.com/developer/xmp-metadata/>.
<http://www.productioninformation.org/Uniclass.asp>.
<http://www.rda-jsc.org/rda.html>.
<http://www.realiter.net/IMG/doc/Pamela_Negosanti-Franco_Bertaccini.doc>.
<http://www.realiter.net/spip.php?article1780>.
<http://www.realiter.net/spip.php?article1794>.
<http://www.realiter.net/spip.php?rubrique28>.
<http://www.regione.calabria.it>.
<http://www.regione.veneto.it/prezzario2010/home.aspx>.
<http://www.regioneumbria.eu/>.
<http://www.sapere.it/sapere/enciclopedia/tecnica/edilizia/terminologia-e-tipologie-edilizie.html>.
<http://www.sdc.biz/>.
<http://www.seamless.unimo.it/>.
<http://www.sito.regione.campania.it/burc/pdf09/burc09sp_09/del2007_08/d
el2007_08all_Tomo_I.pdf>.
<http://www.spbo.unibo.it/bibliotime/num-vi-1/gnoli.htm>.
<http://www.tei-c.org/index.xml>.
Bibliografia - Sitografia
317
<http://www.tei-c.org/Roma>.
<http://www.term-minator.it/corso/doc/mod3_termino_glossa.pdf>.
<http://www.treccani.it/vocabolario/installare>.
<http://www.w3.org/>.
<http://www.w3.org/2004/02/skos/>.
<http://www.w3.org/RDF/>.
<http://www.w3.org/TR/REC-xml-names/>.
<http://www.w3.org/TR/webont-req/#section-introduction>.
<http://www.w3.org/XML/>.
<http://www.wbdg.org/resources/cobie.php>.
<http://www2.archivists.org/standards>.
<http://www3.regione.molise.it/flex/cm/pages/ServeBLOB.php/L/IT/IDPagina/1535>.
<http://xml.coverpages.org/bcXML.html>.
<http://zthes.z3950.org/>.
https://www.rakennustieto.fi/kortistot/rane/attachments/5k2Ih5ORz/5k2Z7G
0pP/Files/CurrentFile/Casa90.pdf>.
<library.dialog.com/bluesheets/html/bl0118.html>.
<www.assiterm91.org/it/index.php?option=com_content&task=view&id=11
&Itemid=25>.
<www.bcis.co.uk>.
www.multites.com>.
*
Data di ultima consultazione 30/01/2012
319
INDICE
Introduzione
Pag.
5
“
“
“
“
35
41
41
47
“
“
“
“
“
“
“
“
“
“
“
“
“
“
“
“
“
“
“
“
64
64
69
73
86
86
92
97
108
111
118
132
145
146
152
159
159
161
165
169
“
“
“
“
171
175
192
195
CAPITOLO 1 Organizzazione multidimensionale della conoscenza nel domino dell’efficienza energetica e
dell’applicazione delle fonti rinnovabili negli usi
finali civili
di ANTONIETTA FOLINO
1.
2.
2.1.
2.2.
3.
3.1.
3.2.
3.3.
3.4.
3.4.1.
3.4.2.
3.4.3.
3.4.4.
3.4.4.1.
3.4.4.2.
3.4.4.3.
3.5.
3.6.
3.7.
4.
4.1.
4.2.
4.2.1.
4.2.1.1.
Obiettivi e motivazioni
Stato dell’arte
Il contesto italiano
Il contesto internazionale
Realizzazione del sistema di organizzazione della conoscenza
Definizione del concetto di thesaurus
Principali funzionalità di un thesaurus
Sistemi di classificazione alla base dei thesauri
Approccio metodologico
Costituzione del corpus documentale
Estrazione terminologica
Analisi terminologica
Definizione del lessico e costruzione del thesaurus
Selezione e organizzazione dei termini
Schema di classificazione
Presentazione dettagliata della sottofaccetta Impianti
Caso applicativo: il centro di documentazione
Principali funzionalità del prototipo
Thesaurus e centro di documentazione
Conclusioni e prospettive
Conclusioni
Prospettive metodologiche
Approccio per punti di vista
Integrazione tra faccette e punti di vista
CAPITOLO 2 Il fondo Jean Cocteau: Metodologia per la codifica in EAD dell’inventario
di FRANCESCA IOZZI
Premessa
1. La descrizione archivistica standardizzata
1.2. EAD: Encoded Archival Desciption
1.3. EAD: letteratura e stato dell’arte
320
1.3.1 Stato dell’arte: Italia
1.3.3 Stato dell’arte: Francia
2. Caso studio: la codifica in EAD del Fondo “Jean Cocteau”
2.1. La BHVP e il fondo Jean Cocteau
2.2. Stato dell’ordinamento e inventario
2.3. Metodologia
2.3.1 Ipotesi di lavoro e primi approcci
2.3.2 Indicizzazione
2.3.4 Codifica EAD
2.3.5 EAC-CPF
2.3.6 Criticità e riflessioni
3. Conclusioni e prospettive
3.1. Giustificazione della ricerca
3.2. Biblioteche e archivi: Collezioni archivistiche e fondi
archivistici
3.3. 75° Congresso annuale SAA: lavori e proposte per la
nuova versione de l’EAD
3.4 Interazione de l’EAD con altri standard
3.5 Conclusioni e obiettivi futuri
“
“
195
198
“
“
“
“
“
“
“
“
“
“
“
202
202
205
206
206
208
212
222
228
232
232
“
237
“
“
“
239
247
251
“
255
“
“
“
“
“
“
“
“
“
258
258
262
263
264
268
269
272
275
“
“
277
283
“
“
287
295
“
“
297
311
CAPITOLO 3 Le procedure di selezione dei documenti digitali
di MARIA TAVERNITI
Introduzione
1. Metodi per la selezione dei documenti: Excursus storico
e prassi archivistica
1.1. Introduzione
1.2. Lo scarto Archivistico
1.3. Definizione dello scarto
1.4. Stato dell’arte in Italia
1.5. Massimario e prontuario di scarto
1.6. La Proposta di scarto
1.7. La Campionatura negli Archivi
1.8. Selezione dei documenti elettronici
2. Trovare schemi significativi in masse di informazioni:
Un approccio possibile
2.1. Sistema di addestramento
2.1. Un’ulteriore possibilità: Massima Entropia ed estrazione
delle caratteristiche documentali
3. Conclusioni e obiettivi futuri
Bibliografia
Sitografia