Scarica il modulo in formato pdf

Transcript

Scarica il modulo in formato pdf
CENTRO DI ECCELLENZA ITALIANO SULLA CONSERVAZIONE DIGITALE
Formato del documento informatico
SILVIO SALZA
Università degli Studi di Roma “La Sapienza”
CINI- Consorzio Interuniversitario Nazionale per l’Informatica
[email protected]
Work supported by the European Community under the
Information Society Technologies (IST) program of the 7th FP for RTD
SILVIO SALZA - Università di Roma
“LaAPARSEN,
Sapienza”ref.
– Formato
project
269977 del documento informatico
SILVIO SALZA - Università di Roma “La Sapienza” –
1
LICENZA DI DIRITTO D’AUTORE
Questo materiale è rilasciato sotto licenza Creative Commons CC BY-NC-ND
Questa licenza implica che:
• È possibile copiare e distribuire liberamente questo materiale, a patto che non vengano
apportate modifiche e che vengano mantenute le indicazioni di chi è l'autore dell'opera.
• Ciò è però consentito esclusivamente quando avvenga per scopi non commerciali.
• Non è consentito di distribuire opere derivate, cioè contenenti qualsivoglia modifica
rispetto al materiale originale.
Per maggiori dettagli si rimanda direttamente alla licenza:
• Riassunto della licenza: http://creativecommons.org/licenses/by-nc-nd/3.0/it/deed.it
• Licenza completa: http://creativecommons.org/licenses/by-nc-nd/3.0/it/legalcode
SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico
SILVIO SALZA - Università di Roma “La Sapienza” –
2
Formati aperti e formati proprietari
Esistono due diverse tipologie di formati:
•
Formati proprietari: sono quelli riconducibili a produttori che ne
conservano i diritti e non ne rendono pubbliche le specifiche
•
Formati aperti: sono quelli di cui è liberamente disponibile la
documentazione completa delle specifiche, possibilmente
sotto forma di standard internazionale emessi da organismi
riconosciuti
N.B. L’apertura del formato di un documento informatico ne
rende sempre possibile la decodifica, anche in assenza di
prodotti che la eseguano automaticamente, quindi è un
requisito essenziale per garantirne la conservazione
SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico
3
Formati aperti e CAD
CAD - Art. 68
• Per formato dei dati di tipo aperto [si intende] un formato dati reso
pubblico e documentato esaustivamente e neutro rispetto agli
strumenti tecnologici necessari per al fruizione dei dati stessi.
• DigitPA istruisce ed aggiorna, con periodicità almeno annuale, un
repertorio dei formati aperti utilizzabili nelle pubbliche
amministrazioni e delle modalità di trasferimento dei formati.
•
•
Il CAD fa riferimento ai formati aperti nell’ambito di una serie di
raccomandazioni per garantire l’interoperabilità, economicità ed
efficienza.
Maggiori dettagli sono contenuti nelle Regole Tecniche (All. 2
alle regole tecniche sulla conservazione (GU 12/3/2014 supp.
Ordinario n. 20).
SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico
4
Criteri di scelta dei formati
•
Apertura: è l’elemento essenziale, perché svincola la leggibilità
del formato dalla disponibilità di specifiche applicazioni
•
Completezza delle specifiche: è indirettamente garantita
dall’autorevolezza dell’organismo internazionale di
standardizzazione che definisce e pubblica le specifiche (ISO,
IEC, ITU-T, etc.)
•
Semplicità: ne semplifica l’interpretazione e la decodifica e
rafforza le garanzie di leggibilità nel tempo
•
Diffusione: influisce sulla probabilità che esso venga supportato
nel tempo
SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico
5
Organismi di standardizzazione
•
ISO (International Standard Organization): raccoglie
rappresentanti di numerose organizzazioni nazionali (membro
per l’Italia UNI)
•
IEC (International Electrotechnical Commission): pubblica
standard nel settore elettronico-informatico (membro per l’Italia
CEI)
•
ITU-T (International Telecommunication Union): massimo ente
di standardizzazione nel settore delle telecomunicazioni
•
ANSI (American National Standard Institute): organizzazione
privata nonprofit operante negli USA
•
ECMA (European Computer Manufacturer Association)
divenuta poi Ecma International, cui sono associate tutte le
maggiori società del settore
SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico
6
Usabilità dei formati
•
•
•
•
Non devono essere trascurati gli aspetti di usabilità, anche se
questi portano all’uso di formati ed applicazioni proprietarie
Elemento essenziale per l’accettazione da parte dell’utente
finale, e quindi per il successo delle politiche di diffusione del
documento informatico
Es. PDF/A (ISO 19005-1) è un formato aperto che offre le
migliori garanzie, ma non si può pretendere che gli utenti lo
utilizzino nella fase di formazione
Forzare l’uso di formati poco usabili spinge gli utenti ad eludere
le regole e può diventare controproducente
Per conciliare le diverse esigenze, si può liberalizzare l’uso
dei formati nella fase di formazione, ponendo però limiti chiari
per le fasi di gestione e conservazione
SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico
7
Formato del file system
File system: organizzazione secondo cui le singole unità di
registrazione (file) sono organizzate e vengono accedute sul
supporto di memorizzazione
•
•
•
•
•
La conoscenza delle specifiche del file system è indispensabile
per la lettura del supporto di memorizzazione e l’estrazione dei
file in esso contenuti
Si ripropone anche a questo livello il dualismo tra sistemi aperti
e sistemi proprietari
È un altro elemento indispensabile per la conservazione
Il problema è quello di garantire l’interoperabilità a distanza di
tempo
In diversi casi i file system usati sui dischi magnetici sono
proprietari
SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico
8
File system proprietari
•
Un esempio abbastanza diffuso di file system proprietario è
quello usato dai dispositivi EMC2 Centera
•
Questo sistema ha peraltro grandi vantaggi in termini di
affidabilità e di protezione dell’integrità
•
La lettura dei dati rende necessaria l’intermediazione di un
firmware proprietario del quale i dettagli non sono noti
•
Considerando una prospettiva temporale molto lunga, il
supporto ai dispositivi potrebbe venire a mancare ed i dati
potrebbero divenire inaccessibili
Non è fantascienza: cose di questo tipo sono storicamente già
successe, anche a grandi organizzazioni (NASA, BBC ..) e
preziosi dati sono andati irrimediabilmente perduti
SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico
9
Rischio di perdita dei dati: un paio di esempi
•
La NASA ha lasciato, per oltre un decennio, molti nastri
magnetici del Viking Mars landing (1976) senza elaborarli.
Quando ha cercato di farlo i nastri erano ormai illeggibili
•
Il Domesday Project della BBC (1986), un survey della nazione
a 900 anni di distanza dallo storico Domesday Book.
•
L’informazione del Domesday Book (creata nel medioevo) è
tuttora accessibile. I dischi del Domesday Project stanno
diventando illeggibili.
•
Problemi:
─ piattaforma Hw/Sw proprietaria
─ disponibilità di drive per la lettura dei dischi ottici
•
•
Salvataggio tramite emulazione della vecchia piattaforma
Ora stanno migrando tutto in formati aperti
SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico
10
File system aperti: ISO 9660 - Ecma 119
•
•
•
•
•
•
Definisce un file system per i CD-ROM e per i DVD
È indipendente dal sistema operativo (Unix, Windows, Mac OS, …)
Pone vincoli sul set di caratteri e sui nomi di file
Standard dei CD-ROM a livello fisico ISO/IEC 10149, Ecma 130
Struttura nidificata delle directory
Un CD registrato in questo formato può essere letto da qualsiasi
drive su qualsiasi sistema: ciò assicura la completa portabilità
delle informazioni
N.B. Per altri versi i CD e i DVD sono del tutto sconsigliabili
come supporto di conservazione: invecchiando c’è una forte
probabilità che diventino illegibili
SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico
11
Standard ISO/IEC 13346 (1995)
•
Evoluzione di ISO 9660 pensata soprattutto per i DVD e HDVD
e blue-ray
•
Una sua realizzazione è costituita da UDF (Universal Disk
Format) standard della OSTA (Optical Storage Technology
Association)
•
Utilizzato anche per i DVD video
Revisioni successive dello standard prevedono anche il
supporto di scritture incrementali, ma se ne sconsiglia l’uso
per motivi di affidabilità. Chiudere il DVD subito
SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico
12
Identificazione del formato
•
•
•
•
•
È di cruciale importanza che al documento, soprattutto in fase
di archiviazione e conservazione, siano associate tutte le
informazioni necessarie per la identificazione del formato
Queste devono comprendere:
─ Indicazione non ambigua del formato
─ Specifica di eventuali opzioni
─ Riferimento allo standard (per formati insoliti)
Queste informazioni devono essere contenute nei metadati del
documento o della collezione di cui fa parte
Per formato di larghissima diffusione le regole tecniche del
CAD prevedono che l’estensione del file possa essere
sufficiente
In alcuni casi il tipo di formato è codificato nel magic number,
nei primi byte del file binario (es. 0xffd8 per Jpeg)
SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico
13
Tipologie di formato
Le Regole tecniche considerano diverse tipologie di formato:
• Testi/documenti (DOCX, DOC, HTML, PDF, PPT, PPTX...)
• Fogli di calcolo (XLSX, XLS, ...)
• Immagini e disegni (GIF, JPG, BMP, TIF, EPS, SVG, ...)
• Suoni (MP3, WAV, ...)
• Video (MPG, MPEG, AVI, WMV,...)
• Eseguibili (EXE, ...)
• Archiviazione e Compressione (ZIP, RAR, ...)
• Formati email (EML, SMTP/MIME, …)
N.B. La lista non è esaustiva, e non si tratta di formati
consigliati. Alcuni sono addirittura sconsigliati
SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico
14
Formati per testi e documenti
Limitandoci ai formati per la memorizzazione di testi e documenti
possiamo fare ulteriori distinzioni:
•
Formati elementari: per la memorizzazione di dati in forma
elementare, senza informazioni aggiuntive inerenti la loro
modalità di visualizzazione, le relazioni con altri dati, ecc.
•
Formati per documenti complessi: utilizzati dai correnti prodotti
di produzione e gestione documentale; consentono la
memorizzazione di informazioni complesse ed eterogenee
quali: informazioni di formattazione, metadati, collegamenti con
altri documenti, ecc
•
Formati particolari: ottenibili attraverso la trasformazione di un
file per finalità di compressione o di sicurezza
SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico
15
File di testo e codifica dei caratteri
•
Un testo può essere registrato come semplice sequenza di
caratteri e di spazi, senza alcuna informazione sui caratteri
tipografici e la formattazione
•
In ambiente Windows file di testo sono caratterizzati
dall’estensione ‘txt’
•
Un documento di testo non contiene (in linea di principio)
elementi che dipendono dal software con cui è stato prodotto
•
È il formato più semplice, che offre le migliori garanzie di
leggibilità
N.B. È comunque essenziale conoscere lo schema usato
per la codifica dei caratteri: senza di questo l’informazione
binaria non può essere interpretata
SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico
16
Codifica dei caratteri: il codice ASCII
•
In un sistema di elaborazione un carattere è memorizzato con
uno o più byte (gruppi di 8 bit) tramite una apposita codifica
•
Gli 8 bit del byte hanno 256 possibili configurazioni (di 0 e 1),
con un byte è quindi possibile codificare un alfabeto di 256
caratteri
•
Il sistema di codifica tuttora più diffuso è il codice ASCII
(American Standard Code for Information Interchange)
•
Basato sull’alfabeto inglese (niente accenti) è inadeguato per
altre lingue
•
•
•
Codice a 7 bit (US ASCII) con 128 codifiche (8 bit col primo a 0)
Escape sequences: per caratteri speciali
È ancora lo standard per le e-mail non formatatte
SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico
17
Il codice ASCII
SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico
18
Estensione del codice ASCII
•
•
Nella codifica ASCII il primo bit è sempre a 0
•
L’estensione è stata fatto con lo standard ISO-IEC 8859, ma non
in modo univoco
•
Convivono nello standard 15 diversi schemi di codifica
(estensioni nazionali)
•
Impossibile usarle tutte simultaneamente: la confusione nasce
quando un carattere è interpretato in codice diverso da quello nel
quale era stato scritto
Sfruttando anche questo bit le codifiche raddoppiano, e passano
da 128 a 256
Problema tipico: caratteri strani nelle e-mail e nelle pagine web
SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico
19
ISO-IEC 8859
•
•
•
•
•
ASCII ha 95 codifiche stampabili e 33 codifiche non stampabili,
cioè caratteri di controllo (tipo: a capo, pagina nuova etc.)
ISO-IEC 8859 aggiunge altri 96 caratteri stampabili
ISO-IEC 8859-1 Latin-1 West European copre in linea di principio
tutte le lingue dell’Europa occidentale
Mancano però alcuni caratteri di comune interesse (es. €) ed altri
di interesse nazionale (es. Œ œ per il francese)
È stata introdotta ISO-IEC 8859-15 che ne aggiunge alcuni ma ne
toglie altri ….
SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico
20
ISO-IEC 8859: la Torre di Babele
I primi 12 caratteri nelle 15 diverse codifiche di ISO/IEC 8859
SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico
21
Codice Unicode
•
•
•
•
Soluzione: usare più byte per codificare ciascun carattere
•
Ci sono 65.536 code point nella versione iniziale, poi estesi a
1.114.112 (ma non bastano mai!).
•
Lo standard è gestito da un comitato internazionale che deve
mediare tra esigenze molto diverse e conflittuali
•
Per Unicode si usano diversi schemi di codifica, con diversi
numeri di bit per la codifica elementare (il più diffuso è UTF8)
Codice Unicode prevede l’uso di più byte
E’ in realtà un enorme dizionario di caratteri
Il dizionario assegna a ciascun simbolo che si vuole rappresentare
un code point (cioè un numero) distinto
SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico
22
Unicode: assegnazione delle codifiche
•
•
•
•
•
•
•
Complessivamente 1.114.112 code points da assegnare
Gli alfabeti latini richiedono in tutto 336 code points:
Ulteriori 112 code points necessari per accenti e simboli diacritici
Tutto ok per gli altri alfabeti fonetici: greco, cirillico, ebraico, etc.:
bastano poche centinaia di codifiche
Il problema nasce dagli gli alfabeti non fonetici che rappresentano
con simboli non i suoni ma le parole
Per esempio in cinese c’è un simbolo (ideogramma) per indicare
il cavallo, e magari uno diverso per il cavallo zoppo
Il problema si verifica per molte lingue asiatiche
– 21.000 ideogrammi cinesi
– 11.000 sillabe coreane ……
– 50.000 kanji giapponesi
SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico
23
UTF-8
•
Unicode prevede diversi schemi di codifica che assegnano a
ciascun code point una codifica costituita da uno o più byte
• UTF- 8 (UCS Tranformation Format) dove UCS sta per Universal
Character Set e 8 indica il numero minimo di bit per codifica
• Codifica ciascun carattere un numero di byte variabile da 1 a 4
– Tutti i caratteri ASCII sono codificati con un solo byte
– Due byte sono necessari per caratteri latini accentati, greci,
cirillici, ebraici, arabi, ecc
– Da tre a quattro byte per gli altri caratteri
• Particolarmente efficiente per le lingue occidentali perché la
grande maggioranza dei caratteri sono codificati con solo byte
Costituisce insieme a ISO-IEC 8859-1 lo standard di riferimento
SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico
24
OOXML (Open Office XML)
•
•
•
•
•
•
•
Microsoft Office fino alla versione Office 2003 è stato basato
su formati proprietari e non pubblici
A partire dalla versione Office 2007 si passa al un novo formato
OOXML con specifiche pubbliche
Formato basato su XML per documenti elettronici d’ufficio:
spreadsheets, presentazioni, documenti di word processing
Diviene nel 2008 standard ISO/IEC 29500, poi evolve in
ISO/IEC 29500-1:2012
Specifiche aperte e diritti resi disponibili sotto la forma
Reasonable and Non Discriminatory Licensing
Documenti molto compatti costituiti da ‘package’ in formato ZIP
che contengono una molteplicità di file
Contiene un’infinità di metadati ed informazioni accessorie (ad
es. il processo di revisione)
SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico
25
ODF (Open Document Format)
•
•
•
•
•
•
•
•
Deriva dal formato di OpenOffice una suite open source molto
importante con discreti livelli di compatibilità con altri prodotti
commerciali
Nasce come standard OASIS (Organization for the Advancement
of Structured Information Standards)
Dal 2006 è diventato standard ISO/IEC 26300
Oltre che da OpenOffice è supportato anche da LibreOffice,
Lotus Notes (IBM Notes), ed anche da Microsoft Office
Formato basato su XML per documenti elettronici d’ufficio:
spreadsheet, presentazioni, documenti di word processing
Come OOXML prevede al suo interno una compressione ZIP
Supportato da numerose società ed organizzazioni
La compatibilità con MS Office costituisce tuttora un problema
SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico
PDF (Portable Document Format)
•
•
•
•
•
•
Formato fondamentale per l’interscambio e l’archiviazione dei
documenti
Introdotto da Adobe nel 1993 nella versione 1.1 ed attualmente
giunto alla versione 1.7
Diventa nel 2008 standard ISO 32000-1:2008
Nasce, con un occhio la web, sulla scia del PostScript, il più
diffuso linguaggio per stampanti
Concepito per rappresentare documenti complessi in modo
indipendente dalle caratteristiche dell’ambiente di elaborazione,
soprattutto per la diffusione via web
Un file PDF contiene, tra l’altro, un ricco corredo di metadati
Specifiche pubblicate sul sito di Adobe a partire dalla versione 1.3.
Nessuna royalty: qualsiasi soggetto può realizzare applicazioni
che generano e visualizzano documenti PDF
SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico
27
Struttura dei documenti PDF
•
•
header: informazioni sulla versione
•
xref table: contiene riferimenti e
puntatori a tutti gli oggetti
•
trailer: contiene puntatori alla xref table
ed agli oggetti principali
body: contiene tutta l’informazione sugli
oggetti che costituiscono il documento:
testo, fonti, immagini, bookmark, etc.
Un file PDF è un documento intelligente,
cioè contiene tutti i metadati al suo interno
SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico
28
Struttura incrementale dei documenti PDF
•
Un documento PDF può essere
modificato in fasi successive
•
Il file ha una struttura incrementale,
•
Viene mantienuta nota di tutta la storia
•
Importante per documenti con più
versioni che deve essere possibile
ricostruire
Diverse versioni di uno stesso documento
possono essere sottoscritte con firma
digitale indipendentemente
SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico
29
Varianti del formato PDF
•
•
•
•
Formato di grande ricchezza e complessità: la specifica della
versione 1.7 si estende per oltre 1000 pagine
Diverse varianti del formato PDF che, a seconda del contesto e
dell’obiettivo del documento, limitano alcune opzioni:
– PDF/X per la stampa di immagini relative ad arti grafiche
– PDF/A per l’archiviazione nel lungo periodo
– PDF/E per lo scambio di immagini di tipo tecnico
– PDF/UA per l’accessibilità
Sia PDF/X che PDF/A sono stati standardizzati prima del PDF
In PDF è possibile creare gestire anche moduli (form):
– Compilabili anche con applicazioni gratuite (es. Adobe Reader)
– Contenuto del modulo estraibile come file XML e gestibile in
workflow automatizzati
SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico
30
Timeline del PDF
SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico
31
Il formato PDF/A
•
•
•
•
•
•
•
Versione limitata del PDF, basata sulla versione 1.4, pensata
per la conservazione di lungo termine
Standard concepito con la finalità di consentire la corretta
riproduzione dei documenti a grande distanza di tempo
Definiti criteri cui devono conformarsi i prodotti che leggono file
PDF/A
Soddisfa tutti i criteri di apertura, semplicità e diffusione
PDF/A-1 standard ISO 19005-1:2005
PDF/A-1 standard ISO 19005-1:2011
PDF/A-3 standard ISO 19005-3:2012
Obiettivi del PDF/A:
• Indipendenza dai dispositivi e dai sistemi
• I documenti sono completamente autocontenuti
• Tutta la documentazione è inclusa nel file
SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico
32
Prescrizioni e restrizioni del PDF/A
•
Tutti gli elementi per la corretta interpretazione del documento
devono essere in esso contenuti, in particolare le fonti
•
Un insieme minimo di metadati è reso obbligatorio (titolo,
autore, date, etc.)
•
Devono essere assenti tutti gli elementi non adatti alla
conservazione di lungo termine
•
Il documento non può contenere:
─ riferimenti esterni di alcun tipo
─ alcun tipo di cifratura
─ codice eseguibile (macro, javascript, etc.)
─ informazioni di tipo multimediale (audio e video)
SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico
33
Livelli di conformità del PDF/A
•
Lo standard definisce diversi livelli di conformità
– PDF/A-1-b: garantisce la corretta riproduzione e il corretto
aspetto visuale del documento
– PDF/A-1-a: oltre ai requisiti del livello b si rivolge anche alla
struttura logica del documento (tagged PDF) per garantirne
la ricerca e l’accesso ordinato
•
Le versioni successive (PDF/A-2 e PDF/A-3) si allineano con
PDF 1.7 e consentono firma digitale e altro. Sono entrambe
compatibili all’indietro
File PDF/A possono essere generati con diversi prodotti,
distribuiti da Adobe e da vari concorrenti. Tali applicazioni
consentono (o dovrebbero consentire) anche di verificare la
conformità di un file con i diversi livelli previsti dallo standard
SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico
34
HTML e XML
•
•
•
•
HTML (Hyper Text Mark-Up Language): linguaggio di marcatura
di testi introdotto dal consorzio W3C per la descrizione delle
pagine web
XML (eXtensible Markup Language): evoluzione di HTML per la
rappresentazione di dati strutturati
XML permette di strutturare insiemi di dati complessi, tramite
strutture nidificate, ed di associare a ciascun elemento la sua
descrizione
File così strutturati e ‘commentati’ sono auto contenuti e auto
documentati
L’uso di formati basati su XML per archiviazione di lungo
periodo richiede la conformità anche con ulteriori standard che
fissino la struttura di tutte le informazioni relative al documento
SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico
35
XML: esempio
SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico
36
Formati per libri elettronici: EPUB
•
•
•
•
•
EPUB è un formato aperto per libri elettronici sviluppato da
International Digital Publishing Forum (IDPF)
Sostituisce Open eBook (OeB), dell’Open E-book Forum
Introdotto come standard nel 2007, poi aggiornato alla versione 3
nel 2011
Formato basato su XHTML (HTML + XML)
Caratteristiche principali:
– Formato re-flowable riformatta ed ottimizza il flusso di testo
in base al dispositivo di visualizzazione
– Metadati interni
– Possibilità di incorporare font
– Utilizza fogli di stile CSS
– Supporta sia grafica raster che vettoriale
– Supporto DRM (Digital Rigths Management)
SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico
37
Formati per libri elettronici: MOBI, AZW e KF8
•
•
•
MOBI è un formato per libri elettronici sviluppato Mobipocket
•
•
Supportatoi da vari dispositivi tra cui il Kindle di Amazon
•
Recentemente Amazon ha annunciato il nuovo formato KF8
(Kindle Format 8) con migliore supporto per grafica scalabile
Deriva anche lui Open eBook (OeB), dell’Open E-book Forum
Formato re-flowable riformatta ed ottimizza il flusso di testo in
base al dispositivo di visualizzazione
Amazon ha il suo formato proprietario AZW, con caratteristiche
pressoché identiche a MOBI
Disponibili numerosi strumenti open-source per la redazione di libri
elettronici e per la conversione tra i vari formati, inclusi PDF e DjVu
SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico
38
Formati per immagini e disegni
•
Formati raster (o bitmap)
– Immagine è rappresentata come matrice di punti (pixel)
– All’immagine è associata una risoluzione (punti/pollice)
– Se ingrandita l’immagine ‘sgrana’
•
Formati vettoriali
– L’immagine rappresentata come insieme di elementi
geometrici: linee, punti archi etc.
– In restituzione l’immagine viene ‘disegnata’
– Se ingrandita l’immagine resta nitida
In un’immagine raster per rappresentare ciascun pixel viene
usato un numero variabile di bit, da 1 a 64, ottenendo
diversi livelli di dettaglio del colore (profondità di colore)
SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico
39
Formati compressi
•
•
•
•
•
•
Alcuni formati per immagini (e per video e suoni) sfruttano
speciali tecniche di compressione che riducono la dimensione
del file
Fattori di compressione dell’ordine delle decine
Compressione lossless: non c’è perdita di informazione e
l’oggetto originale può essere restituito
Compressione lossy: la riduzione del file viene ottenuta a
scapito della qualità
La compressione non altera la risoluzione, ma agisce sul
dettaglio dei toni e dei colori
Tipici formati compressi:
– Immagini: TIFF, JPG, JPEG2000, DjVu
– Filmati: MP4, DVX
– Suoni: MP3, FLAC, APE
SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico
40
Immagini raster: GIF e BMP
•
GIF (Graphics Interchange Format)
– Formato raster, in origine proprietario
– Compressione lossless
– Diffusissimo su web
– Tavolozza di 256 colori (1 byte per pixel) scelti tra 16
milioni di colori
– Disponibile anche versione animata
– Magic number: GIF89a (47 49 46 38 39 61) o GIF86a
•
BMP
– Formato raster usato da Microsoft, proprietario ma con
definizione esauriente
– Nessuna compressione
– Pixel rappresentati con 1, 4, 8, 16 o 32 bit
– Possibile specificare tavolozze
SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico
41
Immagini raster: PNG
•
PNG (Portable Network Graphics)
– Formato raster, pensato originariamente per il web
– Standard ISO/IEC 15948:2004
– Compressione lossless
– Rappresentazione ricca e flessibile dei colori (anche 48 bit)
– Magic number: 89 50 4e 47 0d 0a 1a 0a
•
Vantaggi della compressione lossless:
Immagine JPG: ben
visibili gli artefatti da
compressione
Immagine PNG:
se ingrandita
sgrana sui pixel
SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico
42
Immagini raster: TIFF
•
TIFF (Tagged Image File Format) è un formato proprietario
(Adobe), ma con specifiche pubbliche
•
•
•
•
•
Formato ‘contenitore’ per immagini e grafica
•
Una pagina A4 a 300 dpi compressa occupa circa 50 KB
Molto diffuso e supportato da moltissime applicazioni
Supporta vari tipi di compressione sia lossless che lossy
La compressione LZW, però coperta da brevetti: attenzione!
Per la rappresentazione di documenti bisogna spesso si usa la
compressione CCIT Group IV 2D (usata anche dai fax), lossless
per bianco e nero
Usare, ma con criterio nella scelta delle opzioni
SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico
43
Immagini raster: JPEG
•
•
•
•
•
•
•
•
•
JPEG (Joint Photographic Experts Group) poi ISO 10918-1
Formato molto diffuso, con compressione lossy, cioè con
perdita di qualità (legata al fattore di compressione)
Permette rapporti di compressione fino a 1:20 con perdita di
qualità appena percettibile
Compressione non indicata per caratteri e disegni
È il formato più diffuso sul Web
Molte applicazioni di fatto usano una sua versione semplificata
JFIF (JPEG File Interchange Format)
Estensioni .jpg, .jpeg, .jfif, .jif
Disponibile anche una versione JPEG-LS che usa una
compressione lossless, cioè senza perdita
Formato standard Exif per i metadati dell’immagine
SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico
44
JPEG: perdita di qualità e dimensione del file
SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico
45
Immagini raster: JPEG 2000
•
•
•
•
•
•
Estensione del JPEG, sviluppata molto recentemente
•
Formato molto interessante, ma ancora non completamente
diffuso (non è supportato da diversi browser)
Standard ISO/IEC IS 15444-1 (estensione .jp2)
Ulteriore release ISO/IEC IS 15444-2 (estensione .jpx)
Compressione molto sofisticata, sia lossless che lossy
Decompressione sensibilmente più lenta di JPEG
Qualità nettamente superiore a JPEG agli alti rapporti di
compressione (0.25 bit/pixel in grayscale)
Formato molto resistente alla corruzione del file: a differenza di
JPEG l’immagine degrada in modo progressivo ed uniforme
SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico
46
Metadati EXIF
•
Molti formati per immagini (JPEG, TIFF etc.) prevedono
metadati interni
•
•
Formato dei metadati EXIF (Exchangeable image file format)
•
Insieme di metadati piuttosto vasto:
Introdotto da JEIDA (Japan Electronic Industries Development
Association)
– Data ora di scatto, digitalizzazione e modifica
– Dati di esposizione (tempo, diaframma, metodo, flash …)
– Dati di messa a fuoco (distanza, metodo)
– Dati della fotocamera e dell’obiettivo, focale utilizzata
– Dati di georeferenziazione
– Autore e Copiright
SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico
47
Metadati EXIF: esempio 1
SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico
48
Metadati EXIF: esempio 2 (iPhone)
SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico
49
Il formato DjVu
•
DjVu (Déjà Vu) formato per documenti scannerizzati,
contenenti combinazione di testo, disegni e immagini
•
•
•
•
•
Tratta i diversi oggetti in modo diverso
•
Scelto da Internet Archive fra i formati per il suo Million Book
Project
File molto compatti: proposto come alternativa al PDF
Può contenere uno strato di testo in OCR
Formato aperto ma coperto da brevetti
Disponibili versioni open source e plugin per tutte le principali
piattaforme
Formato particolarmente promettente per la conservazione
di copie digitali di libri e di altri testi stampati
SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico
50
ZIP
•
•
•
•
•
•
•
Originariamente progettato da Phil Katz per il tool di archiviazione
PKZIP
Permette una compressione lossless (senza perdita) di file ed
intere directory
Attualmente usato da moltissime applicazioni
Supporto per ZIP è incluso nelle ultime versioni di Windows,
Linux e Mac OSX
Supporta anche un semplice tipo di cifratura basato su
password: inaffidabile e inopportuno
Specifiche del formato pubblicate dalla società PKWHARE
Un processo di standardizzazione ISO è in corso
Formato molto diffuso e pubblico, ma non ancora standard
SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico
51
Varianti crittografiche dei formati
•
•
•
•
•
Molti software che usano i formati fin qui esaminati consentono
anche di produrre versioni protette attraverso cifratura dei dati
In certi contesti a cifratura può essere utile, ma comporta il
problema della gestione delle chiavi
In un contesto di archiviazione, l’eventuale perdita della chiave
rende potenzialmente illeggibile il documento
La cifratura è da evitarsi assolutamente per documenti destinati
all’archiviazione ed alla conservazione.
La protezione, se necessaria, deve essere assicurata limitando
l’accesso al documento a livello fisico
Secondo alcuni, ma a torto, anche la firma digitale, che
implica una forma di cifratura, dovrebbe essere preclusa
SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico
52
Formato PKCS #7
•
•
•
Public Key Cryptographic Message Syntax # 7
•
Racchiude in uno stesso file sia il documento (in
qualunque formato), sia le informazioni relative alla
firma elettronica
•
Indicato come formato idoneo per i file firmati
digitalmente dalla circolare AIPA n. 24 del 19 giugno
2000
È uno standard crittografico definito dalla RFC 2315
Formato ‘di imbustamento’ usato per i documenti
firmati digitalmente
SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico
53