Scarica il modulo in formato pdf
Transcript
Scarica il modulo in formato pdf
CENTRO DI ECCELLENZA ITALIANO SULLA CONSERVAZIONE DIGITALE Formato del documento informatico SILVIO SALZA Università degli Studi di Roma “La Sapienza” CINI- Consorzio Interuniversitario Nazionale per l’Informatica [email protected] Work supported by the European Community under the Information Society Technologies (IST) program of the 7th FP for RTD SILVIO SALZA - Università di Roma “LaAPARSEN, Sapienza”ref. – Formato project 269977 del documento informatico SILVIO SALZA - Università di Roma “La Sapienza” – 1 LICENZA DI DIRITTO D’AUTORE Questo materiale è rilasciato sotto licenza Creative Commons CC BY-NC-ND Questa licenza implica che: • È possibile copiare e distribuire liberamente questo materiale, a patto che non vengano apportate modifiche e che vengano mantenute le indicazioni di chi è l'autore dell'opera. • Ciò è però consentito esclusivamente quando avvenga per scopi non commerciali. • Non è consentito di distribuire opere derivate, cioè contenenti qualsivoglia modifica rispetto al materiale originale. Per maggiori dettagli si rimanda direttamente alla licenza: • Riassunto della licenza: http://creativecommons.org/licenses/by-nc-nd/3.0/it/deed.it • Licenza completa: http://creativecommons.org/licenses/by-nc-nd/3.0/it/legalcode SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico SILVIO SALZA - Università di Roma “La Sapienza” – 2 Formati aperti e formati proprietari Esistono due diverse tipologie di formati: • Formati proprietari: sono quelli riconducibili a produttori che ne conservano i diritti e non ne rendono pubbliche le specifiche • Formati aperti: sono quelli di cui è liberamente disponibile la documentazione completa delle specifiche, possibilmente sotto forma di standard internazionale emessi da organismi riconosciuti N.B. L’apertura del formato di un documento informatico ne rende sempre possibile la decodifica, anche in assenza di prodotti che la eseguano automaticamente, quindi è un requisito essenziale per garantirne la conservazione SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico 3 Formati aperti e CAD CAD - Art. 68 • Per formato dei dati di tipo aperto [si intende] un formato dati reso pubblico e documentato esaustivamente e neutro rispetto agli strumenti tecnologici necessari per al fruizione dei dati stessi. • DigitPA istruisce ed aggiorna, con periodicità almeno annuale, un repertorio dei formati aperti utilizzabili nelle pubbliche amministrazioni e delle modalità di trasferimento dei formati. • • Il CAD fa riferimento ai formati aperti nell’ambito di una serie di raccomandazioni per garantire l’interoperabilità, economicità ed efficienza. Maggiori dettagli sono contenuti nelle Regole Tecniche (All. 2 alle regole tecniche sulla conservazione (GU 12/3/2014 supp. Ordinario n. 20). SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico 4 Criteri di scelta dei formati • Apertura: è l’elemento essenziale, perché svincola la leggibilità del formato dalla disponibilità di specifiche applicazioni • Completezza delle specifiche: è indirettamente garantita dall’autorevolezza dell’organismo internazionale di standardizzazione che definisce e pubblica le specifiche (ISO, IEC, ITU-T, etc.) • Semplicità: ne semplifica l’interpretazione e la decodifica e rafforza le garanzie di leggibilità nel tempo • Diffusione: influisce sulla probabilità che esso venga supportato nel tempo SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico 5 Organismi di standardizzazione • ISO (International Standard Organization): raccoglie rappresentanti di numerose organizzazioni nazionali (membro per l’Italia UNI) • IEC (International Electrotechnical Commission): pubblica standard nel settore elettronico-informatico (membro per l’Italia CEI) • ITU-T (International Telecommunication Union): massimo ente di standardizzazione nel settore delle telecomunicazioni • ANSI (American National Standard Institute): organizzazione privata nonprofit operante negli USA • ECMA (European Computer Manufacturer Association) divenuta poi Ecma International, cui sono associate tutte le maggiori società del settore SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico 6 Usabilità dei formati • • • • Non devono essere trascurati gli aspetti di usabilità, anche se questi portano all’uso di formati ed applicazioni proprietarie Elemento essenziale per l’accettazione da parte dell’utente finale, e quindi per il successo delle politiche di diffusione del documento informatico Es. PDF/A (ISO 19005-1) è un formato aperto che offre le migliori garanzie, ma non si può pretendere che gli utenti lo utilizzino nella fase di formazione Forzare l’uso di formati poco usabili spinge gli utenti ad eludere le regole e può diventare controproducente Per conciliare le diverse esigenze, si può liberalizzare l’uso dei formati nella fase di formazione, ponendo però limiti chiari per le fasi di gestione e conservazione SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico 7 Formato del file system File system: organizzazione secondo cui le singole unità di registrazione (file) sono organizzate e vengono accedute sul supporto di memorizzazione • • • • • La conoscenza delle specifiche del file system è indispensabile per la lettura del supporto di memorizzazione e l’estrazione dei file in esso contenuti Si ripropone anche a questo livello il dualismo tra sistemi aperti e sistemi proprietari È un altro elemento indispensabile per la conservazione Il problema è quello di garantire l’interoperabilità a distanza di tempo In diversi casi i file system usati sui dischi magnetici sono proprietari SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico 8 File system proprietari • Un esempio abbastanza diffuso di file system proprietario è quello usato dai dispositivi EMC2 Centera • Questo sistema ha peraltro grandi vantaggi in termini di affidabilità e di protezione dell’integrità • La lettura dei dati rende necessaria l’intermediazione di un firmware proprietario del quale i dettagli non sono noti • Considerando una prospettiva temporale molto lunga, il supporto ai dispositivi potrebbe venire a mancare ed i dati potrebbero divenire inaccessibili Non è fantascienza: cose di questo tipo sono storicamente già successe, anche a grandi organizzazioni (NASA, BBC ..) e preziosi dati sono andati irrimediabilmente perduti SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico 9 Rischio di perdita dei dati: un paio di esempi • La NASA ha lasciato, per oltre un decennio, molti nastri magnetici del Viking Mars landing (1976) senza elaborarli. Quando ha cercato di farlo i nastri erano ormai illeggibili • Il Domesday Project della BBC (1986), un survey della nazione a 900 anni di distanza dallo storico Domesday Book. • L’informazione del Domesday Book (creata nel medioevo) è tuttora accessibile. I dischi del Domesday Project stanno diventando illeggibili. • Problemi: ─ piattaforma Hw/Sw proprietaria ─ disponibilità di drive per la lettura dei dischi ottici • • Salvataggio tramite emulazione della vecchia piattaforma Ora stanno migrando tutto in formati aperti SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico 10 File system aperti: ISO 9660 - Ecma 119 • • • • • • Definisce un file system per i CD-ROM e per i DVD È indipendente dal sistema operativo (Unix, Windows, Mac OS, …) Pone vincoli sul set di caratteri e sui nomi di file Standard dei CD-ROM a livello fisico ISO/IEC 10149, Ecma 130 Struttura nidificata delle directory Un CD registrato in questo formato può essere letto da qualsiasi drive su qualsiasi sistema: ciò assicura la completa portabilità delle informazioni N.B. Per altri versi i CD e i DVD sono del tutto sconsigliabili come supporto di conservazione: invecchiando c’è una forte probabilità che diventino illegibili SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico 11 Standard ISO/IEC 13346 (1995) • Evoluzione di ISO 9660 pensata soprattutto per i DVD e HDVD e blue-ray • Una sua realizzazione è costituita da UDF (Universal Disk Format) standard della OSTA (Optical Storage Technology Association) • Utilizzato anche per i DVD video Revisioni successive dello standard prevedono anche il supporto di scritture incrementali, ma se ne sconsiglia l’uso per motivi di affidabilità. Chiudere il DVD subito SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico 12 Identificazione del formato • • • • • È di cruciale importanza che al documento, soprattutto in fase di archiviazione e conservazione, siano associate tutte le informazioni necessarie per la identificazione del formato Queste devono comprendere: ─ Indicazione non ambigua del formato ─ Specifica di eventuali opzioni ─ Riferimento allo standard (per formati insoliti) Queste informazioni devono essere contenute nei metadati del documento o della collezione di cui fa parte Per formato di larghissima diffusione le regole tecniche del CAD prevedono che l’estensione del file possa essere sufficiente In alcuni casi il tipo di formato è codificato nel magic number, nei primi byte del file binario (es. 0xffd8 per Jpeg) SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico 13 Tipologie di formato Le Regole tecniche considerano diverse tipologie di formato: • Testi/documenti (DOCX, DOC, HTML, PDF, PPT, PPTX...) • Fogli di calcolo (XLSX, XLS, ...) • Immagini e disegni (GIF, JPG, BMP, TIF, EPS, SVG, ...) • Suoni (MP3, WAV, ...) • Video (MPG, MPEG, AVI, WMV,...) • Eseguibili (EXE, ...) • Archiviazione e Compressione (ZIP, RAR, ...) • Formati email (EML, SMTP/MIME, …) N.B. La lista non è esaustiva, e non si tratta di formati consigliati. Alcuni sono addirittura sconsigliati SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico 14 Formati per testi e documenti Limitandoci ai formati per la memorizzazione di testi e documenti possiamo fare ulteriori distinzioni: • Formati elementari: per la memorizzazione di dati in forma elementare, senza informazioni aggiuntive inerenti la loro modalità di visualizzazione, le relazioni con altri dati, ecc. • Formati per documenti complessi: utilizzati dai correnti prodotti di produzione e gestione documentale; consentono la memorizzazione di informazioni complesse ed eterogenee quali: informazioni di formattazione, metadati, collegamenti con altri documenti, ecc • Formati particolari: ottenibili attraverso la trasformazione di un file per finalità di compressione o di sicurezza SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico 15 File di testo e codifica dei caratteri • Un testo può essere registrato come semplice sequenza di caratteri e di spazi, senza alcuna informazione sui caratteri tipografici e la formattazione • In ambiente Windows file di testo sono caratterizzati dall’estensione ‘txt’ • Un documento di testo non contiene (in linea di principio) elementi che dipendono dal software con cui è stato prodotto • È il formato più semplice, che offre le migliori garanzie di leggibilità N.B. È comunque essenziale conoscere lo schema usato per la codifica dei caratteri: senza di questo l’informazione binaria non può essere interpretata SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico 16 Codifica dei caratteri: il codice ASCII • In un sistema di elaborazione un carattere è memorizzato con uno o più byte (gruppi di 8 bit) tramite una apposita codifica • Gli 8 bit del byte hanno 256 possibili configurazioni (di 0 e 1), con un byte è quindi possibile codificare un alfabeto di 256 caratteri • Il sistema di codifica tuttora più diffuso è il codice ASCII (American Standard Code for Information Interchange) • Basato sull’alfabeto inglese (niente accenti) è inadeguato per altre lingue • • • Codice a 7 bit (US ASCII) con 128 codifiche (8 bit col primo a 0) Escape sequences: per caratteri speciali È ancora lo standard per le e-mail non formatatte SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico 17 Il codice ASCII SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico 18 Estensione del codice ASCII • • Nella codifica ASCII il primo bit è sempre a 0 • L’estensione è stata fatto con lo standard ISO-IEC 8859, ma non in modo univoco • Convivono nello standard 15 diversi schemi di codifica (estensioni nazionali) • Impossibile usarle tutte simultaneamente: la confusione nasce quando un carattere è interpretato in codice diverso da quello nel quale era stato scritto Sfruttando anche questo bit le codifiche raddoppiano, e passano da 128 a 256 Problema tipico: caratteri strani nelle e-mail e nelle pagine web SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico 19 ISO-IEC 8859 • • • • • ASCII ha 95 codifiche stampabili e 33 codifiche non stampabili, cioè caratteri di controllo (tipo: a capo, pagina nuova etc.) ISO-IEC 8859 aggiunge altri 96 caratteri stampabili ISO-IEC 8859-1 Latin-1 West European copre in linea di principio tutte le lingue dell’Europa occidentale Mancano però alcuni caratteri di comune interesse (es. €) ed altri di interesse nazionale (es. Œ œ per il francese) È stata introdotta ISO-IEC 8859-15 che ne aggiunge alcuni ma ne toglie altri …. SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico 20 ISO-IEC 8859: la Torre di Babele I primi 12 caratteri nelle 15 diverse codifiche di ISO/IEC 8859 SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico 21 Codice Unicode • • • • Soluzione: usare più byte per codificare ciascun carattere • Ci sono 65.536 code point nella versione iniziale, poi estesi a 1.114.112 (ma non bastano mai!). • Lo standard è gestito da un comitato internazionale che deve mediare tra esigenze molto diverse e conflittuali • Per Unicode si usano diversi schemi di codifica, con diversi numeri di bit per la codifica elementare (il più diffuso è UTF8) Codice Unicode prevede l’uso di più byte E’ in realtà un enorme dizionario di caratteri Il dizionario assegna a ciascun simbolo che si vuole rappresentare un code point (cioè un numero) distinto SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico 22 Unicode: assegnazione delle codifiche • • • • • • • Complessivamente 1.114.112 code points da assegnare Gli alfabeti latini richiedono in tutto 336 code points: Ulteriori 112 code points necessari per accenti e simboli diacritici Tutto ok per gli altri alfabeti fonetici: greco, cirillico, ebraico, etc.: bastano poche centinaia di codifiche Il problema nasce dagli gli alfabeti non fonetici che rappresentano con simboli non i suoni ma le parole Per esempio in cinese c’è un simbolo (ideogramma) per indicare il cavallo, e magari uno diverso per il cavallo zoppo Il problema si verifica per molte lingue asiatiche – 21.000 ideogrammi cinesi – 11.000 sillabe coreane …… – 50.000 kanji giapponesi SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico 23 UTF-8 • Unicode prevede diversi schemi di codifica che assegnano a ciascun code point una codifica costituita da uno o più byte • UTF- 8 (UCS Tranformation Format) dove UCS sta per Universal Character Set e 8 indica il numero minimo di bit per codifica • Codifica ciascun carattere un numero di byte variabile da 1 a 4 – Tutti i caratteri ASCII sono codificati con un solo byte – Due byte sono necessari per caratteri latini accentati, greci, cirillici, ebraici, arabi, ecc – Da tre a quattro byte per gli altri caratteri • Particolarmente efficiente per le lingue occidentali perché la grande maggioranza dei caratteri sono codificati con solo byte Costituisce insieme a ISO-IEC 8859-1 lo standard di riferimento SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico 24 OOXML (Open Office XML) • • • • • • • Microsoft Office fino alla versione Office 2003 è stato basato su formati proprietari e non pubblici A partire dalla versione Office 2007 si passa al un novo formato OOXML con specifiche pubbliche Formato basato su XML per documenti elettronici d’ufficio: spreadsheets, presentazioni, documenti di word processing Diviene nel 2008 standard ISO/IEC 29500, poi evolve in ISO/IEC 29500-1:2012 Specifiche aperte e diritti resi disponibili sotto la forma Reasonable and Non Discriminatory Licensing Documenti molto compatti costituiti da ‘package’ in formato ZIP che contengono una molteplicità di file Contiene un’infinità di metadati ed informazioni accessorie (ad es. il processo di revisione) SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico 25 ODF (Open Document Format) • • • • • • • • Deriva dal formato di OpenOffice una suite open source molto importante con discreti livelli di compatibilità con altri prodotti commerciali Nasce come standard OASIS (Organization for the Advancement of Structured Information Standards) Dal 2006 è diventato standard ISO/IEC 26300 Oltre che da OpenOffice è supportato anche da LibreOffice, Lotus Notes (IBM Notes), ed anche da Microsoft Office Formato basato su XML per documenti elettronici d’ufficio: spreadsheet, presentazioni, documenti di word processing Come OOXML prevede al suo interno una compressione ZIP Supportato da numerose società ed organizzazioni La compatibilità con MS Office costituisce tuttora un problema SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico PDF (Portable Document Format) • • • • • • Formato fondamentale per l’interscambio e l’archiviazione dei documenti Introdotto da Adobe nel 1993 nella versione 1.1 ed attualmente giunto alla versione 1.7 Diventa nel 2008 standard ISO 32000-1:2008 Nasce, con un occhio la web, sulla scia del PostScript, il più diffuso linguaggio per stampanti Concepito per rappresentare documenti complessi in modo indipendente dalle caratteristiche dell’ambiente di elaborazione, soprattutto per la diffusione via web Un file PDF contiene, tra l’altro, un ricco corredo di metadati Specifiche pubblicate sul sito di Adobe a partire dalla versione 1.3. Nessuna royalty: qualsiasi soggetto può realizzare applicazioni che generano e visualizzano documenti PDF SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico 27 Struttura dei documenti PDF • • header: informazioni sulla versione • xref table: contiene riferimenti e puntatori a tutti gli oggetti • trailer: contiene puntatori alla xref table ed agli oggetti principali body: contiene tutta l’informazione sugli oggetti che costituiscono il documento: testo, fonti, immagini, bookmark, etc. Un file PDF è un documento intelligente, cioè contiene tutti i metadati al suo interno SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico 28 Struttura incrementale dei documenti PDF • Un documento PDF può essere modificato in fasi successive • Il file ha una struttura incrementale, • Viene mantienuta nota di tutta la storia • Importante per documenti con più versioni che deve essere possibile ricostruire Diverse versioni di uno stesso documento possono essere sottoscritte con firma digitale indipendentemente SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico 29 Varianti del formato PDF • • • • Formato di grande ricchezza e complessità: la specifica della versione 1.7 si estende per oltre 1000 pagine Diverse varianti del formato PDF che, a seconda del contesto e dell’obiettivo del documento, limitano alcune opzioni: – PDF/X per la stampa di immagini relative ad arti grafiche – PDF/A per l’archiviazione nel lungo periodo – PDF/E per lo scambio di immagini di tipo tecnico – PDF/UA per l’accessibilità Sia PDF/X che PDF/A sono stati standardizzati prima del PDF In PDF è possibile creare gestire anche moduli (form): – Compilabili anche con applicazioni gratuite (es. Adobe Reader) – Contenuto del modulo estraibile come file XML e gestibile in workflow automatizzati SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico 30 Timeline del PDF SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico 31 Il formato PDF/A • • • • • • • Versione limitata del PDF, basata sulla versione 1.4, pensata per la conservazione di lungo termine Standard concepito con la finalità di consentire la corretta riproduzione dei documenti a grande distanza di tempo Definiti criteri cui devono conformarsi i prodotti che leggono file PDF/A Soddisfa tutti i criteri di apertura, semplicità e diffusione PDF/A-1 standard ISO 19005-1:2005 PDF/A-1 standard ISO 19005-1:2011 PDF/A-3 standard ISO 19005-3:2012 Obiettivi del PDF/A: • Indipendenza dai dispositivi e dai sistemi • I documenti sono completamente autocontenuti • Tutta la documentazione è inclusa nel file SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico 32 Prescrizioni e restrizioni del PDF/A • Tutti gli elementi per la corretta interpretazione del documento devono essere in esso contenuti, in particolare le fonti • Un insieme minimo di metadati è reso obbligatorio (titolo, autore, date, etc.) • Devono essere assenti tutti gli elementi non adatti alla conservazione di lungo termine • Il documento non può contenere: ─ riferimenti esterni di alcun tipo ─ alcun tipo di cifratura ─ codice eseguibile (macro, javascript, etc.) ─ informazioni di tipo multimediale (audio e video) SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico 33 Livelli di conformità del PDF/A • Lo standard definisce diversi livelli di conformità – PDF/A-1-b: garantisce la corretta riproduzione e il corretto aspetto visuale del documento – PDF/A-1-a: oltre ai requisiti del livello b si rivolge anche alla struttura logica del documento (tagged PDF) per garantirne la ricerca e l’accesso ordinato • Le versioni successive (PDF/A-2 e PDF/A-3) si allineano con PDF 1.7 e consentono firma digitale e altro. Sono entrambe compatibili all’indietro File PDF/A possono essere generati con diversi prodotti, distribuiti da Adobe e da vari concorrenti. Tali applicazioni consentono (o dovrebbero consentire) anche di verificare la conformità di un file con i diversi livelli previsti dallo standard SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico 34 HTML e XML • • • • HTML (Hyper Text Mark-Up Language): linguaggio di marcatura di testi introdotto dal consorzio W3C per la descrizione delle pagine web XML (eXtensible Markup Language): evoluzione di HTML per la rappresentazione di dati strutturati XML permette di strutturare insiemi di dati complessi, tramite strutture nidificate, ed di associare a ciascun elemento la sua descrizione File così strutturati e ‘commentati’ sono auto contenuti e auto documentati L’uso di formati basati su XML per archiviazione di lungo periodo richiede la conformità anche con ulteriori standard che fissino la struttura di tutte le informazioni relative al documento SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico 35 XML: esempio SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico 36 Formati per libri elettronici: EPUB • • • • • EPUB è un formato aperto per libri elettronici sviluppato da International Digital Publishing Forum (IDPF) Sostituisce Open eBook (OeB), dell’Open E-book Forum Introdotto come standard nel 2007, poi aggiornato alla versione 3 nel 2011 Formato basato su XHTML (HTML + XML) Caratteristiche principali: – Formato re-flowable riformatta ed ottimizza il flusso di testo in base al dispositivo di visualizzazione – Metadati interni – Possibilità di incorporare font – Utilizza fogli di stile CSS – Supporta sia grafica raster che vettoriale – Supporto DRM (Digital Rigths Management) SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico 37 Formati per libri elettronici: MOBI, AZW e KF8 • • • MOBI è un formato per libri elettronici sviluppato Mobipocket • • Supportatoi da vari dispositivi tra cui il Kindle di Amazon • Recentemente Amazon ha annunciato il nuovo formato KF8 (Kindle Format 8) con migliore supporto per grafica scalabile Deriva anche lui Open eBook (OeB), dell’Open E-book Forum Formato re-flowable riformatta ed ottimizza il flusso di testo in base al dispositivo di visualizzazione Amazon ha il suo formato proprietario AZW, con caratteristiche pressoché identiche a MOBI Disponibili numerosi strumenti open-source per la redazione di libri elettronici e per la conversione tra i vari formati, inclusi PDF e DjVu SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico 38 Formati per immagini e disegni • Formati raster (o bitmap) – Immagine è rappresentata come matrice di punti (pixel) – All’immagine è associata una risoluzione (punti/pollice) – Se ingrandita l’immagine ‘sgrana’ • Formati vettoriali – L’immagine rappresentata come insieme di elementi geometrici: linee, punti archi etc. – In restituzione l’immagine viene ‘disegnata’ – Se ingrandita l’immagine resta nitida In un’immagine raster per rappresentare ciascun pixel viene usato un numero variabile di bit, da 1 a 64, ottenendo diversi livelli di dettaglio del colore (profondità di colore) SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico 39 Formati compressi • • • • • • Alcuni formati per immagini (e per video e suoni) sfruttano speciali tecniche di compressione che riducono la dimensione del file Fattori di compressione dell’ordine delle decine Compressione lossless: non c’è perdita di informazione e l’oggetto originale può essere restituito Compressione lossy: la riduzione del file viene ottenuta a scapito della qualità La compressione non altera la risoluzione, ma agisce sul dettaglio dei toni e dei colori Tipici formati compressi: – Immagini: TIFF, JPG, JPEG2000, DjVu – Filmati: MP4, DVX – Suoni: MP3, FLAC, APE SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico 40 Immagini raster: GIF e BMP • GIF (Graphics Interchange Format) – Formato raster, in origine proprietario – Compressione lossless – Diffusissimo su web – Tavolozza di 256 colori (1 byte per pixel) scelti tra 16 milioni di colori – Disponibile anche versione animata – Magic number: GIF89a (47 49 46 38 39 61) o GIF86a • BMP – Formato raster usato da Microsoft, proprietario ma con definizione esauriente – Nessuna compressione – Pixel rappresentati con 1, 4, 8, 16 o 32 bit – Possibile specificare tavolozze SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico 41 Immagini raster: PNG • PNG (Portable Network Graphics) – Formato raster, pensato originariamente per il web – Standard ISO/IEC 15948:2004 – Compressione lossless – Rappresentazione ricca e flessibile dei colori (anche 48 bit) – Magic number: 89 50 4e 47 0d 0a 1a 0a • Vantaggi della compressione lossless: Immagine JPG: ben visibili gli artefatti da compressione Immagine PNG: se ingrandita sgrana sui pixel SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico 42 Immagini raster: TIFF • TIFF (Tagged Image File Format) è un formato proprietario (Adobe), ma con specifiche pubbliche • • • • • Formato ‘contenitore’ per immagini e grafica • Una pagina A4 a 300 dpi compressa occupa circa 50 KB Molto diffuso e supportato da moltissime applicazioni Supporta vari tipi di compressione sia lossless che lossy La compressione LZW, però coperta da brevetti: attenzione! Per la rappresentazione di documenti bisogna spesso si usa la compressione CCIT Group IV 2D (usata anche dai fax), lossless per bianco e nero Usare, ma con criterio nella scelta delle opzioni SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico 43 Immagini raster: JPEG • • • • • • • • • JPEG (Joint Photographic Experts Group) poi ISO 10918-1 Formato molto diffuso, con compressione lossy, cioè con perdita di qualità (legata al fattore di compressione) Permette rapporti di compressione fino a 1:20 con perdita di qualità appena percettibile Compressione non indicata per caratteri e disegni È il formato più diffuso sul Web Molte applicazioni di fatto usano una sua versione semplificata JFIF (JPEG File Interchange Format) Estensioni .jpg, .jpeg, .jfif, .jif Disponibile anche una versione JPEG-LS che usa una compressione lossless, cioè senza perdita Formato standard Exif per i metadati dell’immagine SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico 44 JPEG: perdita di qualità e dimensione del file SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico 45 Immagini raster: JPEG 2000 • • • • • • Estensione del JPEG, sviluppata molto recentemente • Formato molto interessante, ma ancora non completamente diffuso (non è supportato da diversi browser) Standard ISO/IEC IS 15444-1 (estensione .jp2) Ulteriore release ISO/IEC IS 15444-2 (estensione .jpx) Compressione molto sofisticata, sia lossless che lossy Decompressione sensibilmente più lenta di JPEG Qualità nettamente superiore a JPEG agli alti rapporti di compressione (0.25 bit/pixel in grayscale) Formato molto resistente alla corruzione del file: a differenza di JPEG l’immagine degrada in modo progressivo ed uniforme SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico 46 Metadati EXIF • Molti formati per immagini (JPEG, TIFF etc.) prevedono metadati interni • • Formato dei metadati EXIF (Exchangeable image file format) • Insieme di metadati piuttosto vasto: Introdotto da JEIDA (Japan Electronic Industries Development Association) – Data ora di scatto, digitalizzazione e modifica – Dati di esposizione (tempo, diaframma, metodo, flash …) – Dati di messa a fuoco (distanza, metodo) – Dati della fotocamera e dell’obiettivo, focale utilizzata – Dati di georeferenziazione – Autore e Copiright SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico 47 Metadati EXIF: esempio 1 SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico 48 Metadati EXIF: esempio 2 (iPhone) SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico 49 Il formato DjVu • DjVu (Déjà Vu) formato per documenti scannerizzati, contenenti combinazione di testo, disegni e immagini • • • • • Tratta i diversi oggetti in modo diverso • Scelto da Internet Archive fra i formati per il suo Million Book Project File molto compatti: proposto come alternativa al PDF Può contenere uno strato di testo in OCR Formato aperto ma coperto da brevetti Disponibili versioni open source e plugin per tutte le principali piattaforme Formato particolarmente promettente per la conservazione di copie digitali di libri e di altri testi stampati SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico 50 ZIP • • • • • • • Originariamente progettato da Phil Katz per il tool di archiviazione PKZIP Permette una compressione lossless (senza perdita) di file ed intere directory Attualmente usato da moltissime applicazioni Supporto per ZIP è incluso nelle ultime versioni di Windows, Linux e Mac OSX Supporta anche un semplice tipo di cifratura basato su password: inaffidabile e inopportuno Specifiche del formato pubblicate dalla società PKWHARE Un processo di standardizzazione ISO è in corso Formato molto diffuso e pubblico, ma non ancora standard SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico 51 Varianti crittografiche dei formati • • • • • Molti software che usano i formati fin qui esaminati consentono anche di produrre versioni protette attraverso cifratura dei dati In certi contesti a cifratura può essere utile, ma comporta il problema della gestione delle chiavi In un contesto di archiviazione, l’eventuale perdita della chiave rende potenzialmente illeggibile il documento La cifratura è da evitarsi assolutamente per documenti destinati all’archiviazione ed alla conservazione. La protezione, se necessaria, deve essere assicurata limitando l’accesso al documento a livello fisico Secondo alcuni, ma a torto, anche la firma digitale, che implica una forma di cifratura, dovrebbe essere preclusa SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico 52 Formato PKCS #7 • • • Public Key Cryptographic Message Syntax # 7 • Racchiude in uno stesso file sia il documento (in qualunque formato), sia le informazioni relative alla firma elettronica • Indicato come formato idoneo per i file firmati digitalmente dalla circolare AIPA n. 24 del 19 giugno 2000 È uno standard crittografico definito dalla RFC 2315 Formato ‘di imbustamento’ usato per i documenti firmati digitalmente SILVIO SALZA - Università di Roma “La Sapienza” – Formato del documento informatico 53