modulo 1 - da documento a file - Ordine Avvocati Busto Arsizio
Transcript
modulo 1 - da documento a file - Ordine Avvocati Busto Arsizio
DA “DOCUMENTO” A “FILE”: Sistema Itinerario L’ESSENZA DELLA TRASFORMAZIONE Documento in formato “digitale” e informazione elettronica Sistemi di numerazione e conversione di codice Il termine “file” ed il suo significato essenziale Il supporto digitale e la tecnologia della memorizzazione Software, hardware, computer 1 EuClIdea Sigla – pag. 1 1-1 Documento in formato digitale e informazione elettronica • La “rappresentazione informatica” della realtà (atti, fatti, dati) è il risultato di un processo di “digitalizzazione”, che essenzialmente si compie in due fasi: 1. La trasformazione delle grandezze fisiche che esprimono l’oggetto in sequenze numeriche: è un processo ingegneristico (ad es. la cattura di un suono che viene effettuata mediante un microfono associato a un campionatore digitale) di varia natura; 2. La registrazione delle sequenze numeriche “catturate” in un contenitore idoneo, dotato di una memoria. Ciò in quanto la finalità successiva della cattura dell’informazione è duplice: a) possibilità di riprodurre l’informazione, ricreando le grandezze fisiche originali mediante appositi apparati b) possibilità di elaborare ulteriormente l’informazione catturata • Ciò poiché un elaboratore elettronico (computer), per trattare qualunque genere di informazione, ha necessità che questa sia codificata in forma numerica, facendo uso di cifre, ossia (in inglese) di “digits”: ecco perché si utilizza l’aggettivo “digitale” per indicare l’informazione elettronica • Cosa si deve allora intendere per documento “digitale” ? La rappresentazione in formato numerico di un qualsiasi oggetto (testo, suono, immagine, filmato), come tale riproducibile ed elaborabile mediante il computer EuClIdea 1-2 Documento in formato digitale e informazione elettronica • In informatica (la scienza che studia - ed applica - l’informazione elettronica) si usano comunemente, oltre al sistema decimale, il sistema binario (in base due, che utilizza come cifre solo 0 e 1), e quello esadecimale (in base sedici, che utilizza i caratteri numerici dallo 0 al 9 e quindi le prime sei lettere dell’alfabeto, cioè dalla A alla F) • Poiché la memorizzazione, come abbiamo visto, è aspetto fondamentale del processo di digitalizzazione, occorre sapere che per essere memorizzata sui tipi sempre più evoluti di “contenitore” che la tecnologia mette a disposizione, l’informazione elettronica deve essere espressa in formato binario • Le memorie dei computer sono organizzate a celle di 8 bit: con 8 bit si hanno 256 possibili combinazioni, ovvero 256 numeri interi compresi tra 0 e 255, e una apposita convenzione specifica quale numero corrisponde a quale carattere: questa convenzione viene chiamata “codifica” • Un oggetto (testo, suono, immagine, filmato, ecc.) “codificato” in formato binario è composto da un insieme finito di bit (zero o uno): questo “insieme finito di bit che rappresenta un oggetto” viene denominato file (termine mutuato dall’inglese, e utilizzato ormai universalmente : etimologicamente viene dalla parola francese fil e quindi dal latino filum, dall’antica pratica di raccogliere i documenti in sequenze ordinate legati con una cordicella, il filum EuClIdea 1-3 Sistemi di numerazione e conversione di codice Ciascuna lettera digitata sulla tastiera viene convertita dapprima nel numero decimale appartenente al codice convenzionale internazionale noto come ASCII (es. 65 per la “A”, 77 per la “M”, ecc.) Dopodiché il valore decimale viene convertito nel suo equivalente binario ed in tale formato è ospitato in memoria (volatile, la RAM) ovvero è scritto su un supporto “stabile” di memoria EuClIdea 1-4 Le grandezze di memoria Un gruppo di 8 bit viene denominato byte; un gruppo di 1024 byte viene detto Kbyte (kilo = 1.000 bytes); un gruppo di 1024 Kbyte viene detto Mbyte (mega = ~1.000.000 di bytes); un gruppo di 1024 Mbyte viene detto Gbyte (giga = ~ 1.000.000.000 di bytes); un gruppo di 1024 Gbyte viene detto Tbyte (tera = ~ 1.000.000.000.000 di bytes); e così via: dopo il prefisso tera troviamo peta, exa, zetta, yota !!!. • Nel calcolo dell’ “ingombro” dell’informazione elettronica, il byte viene inteso come quasi-sinonimo di carattere: un byte contiene un carattere di testo • Nella storia dell’informatica sono state definite varie codifiche, e tra queste la codifica A.S.C.I.I. (American Standard Code for Information Interchange) ha assunto una posizione predominante rispetto ad altre; Nel sistema ASCII (v. tabella sulla slide seguente) - i codici decimali da 0 a 31 e il 127 sono caratteri non stampabili (codici di controllo) - il codice 32 corrisponde al carattere "spazio“ - i codici dal 32 al 126 sono caratteri “stampabili’ EuClIdea 1-5 Decimale (ASCII), esadecimale, binario, grafico ... insieme ! EuClIdea 1-6 Il supporto digitale e la tecnologia della memorizzazione • Similmente al visitatore di una biblioteca tradizionale, anche l’utente di una raccolta di documenti digitali memorizzati su un computer deve sapere dove e come dirigere le proprie ricerche per rintracciare il documento desiderato: ciò gli comporta un minimo di conoscenza del sistema operativo attraverso cui i file vengono memorizzati sui supporti di memoria permanente di un elaboratore • Tutti i supporti digitali sono organizzati per poter registrare e gestire file separati, attraverso un meccanismo detto file system, grazie al quale i file sono posizionati e organizzati nella memoria del supporto in modo facilmente rintracciabile • Formalmente un file system è l'insieme dei tipi di dati astratti necessari per la memorizzazione (scrittura), l'organizzazione gerarchica, la manipolazione, la navigazione, l'accesso e la lettura dei file • Ciò avviene secondo due livelli di astrazione, che rendono le risorse di memorizzazione di massa facilmente utilizzabili: 1. organizzazione dei settori in un insieme di file di dimensioni arbitrarie 2. organizzazione dei file con nomi “gerarchici” EuClIdea 1-7 Il supporto digitale e la tecnologia della memorizzazione • I file system gestiscono, oltre ai file, le directory (indici, ovvero “cartelle”): una directory è una specifica entità del file system che elenca altre entità, tipicamente file e/o altre directory, cosa che permette di organizzarle in una struttura ad albero • Una directory (o – con terminologia più – un folder) è pertanto definibile come un percorso (path) di locazione del file system dove sono presenti file o altre directory • Un file system memorizza e gestisce informazioni aggiuntive di controllo per l'accesso ai singoli file da parte di programmi e utenti: i criteri di sicurezza nell'accesso alle operazioni sui file system sono in genere basati su liste di controllo di accesso (access control list o ACL), grazie a cui gli utenti godono di facoltà personalizzate rispetto ai files, non potendoli nemmeno leggere, ovvero leggere ma non anche modificare, ovvero anche modificare, ovvero addirittura rimuovere dal supporto. EuClIdea 1-8 Software, Hardware e Computer • il software è l’insieme delle informazioni utilizzate da uno o più computer e memorizzate su uno o più supporti informatici: tali informazioni possono rappresentare programmi, oppure dati, oppure una combinazione di entrambi • i programmi sono sequenze di numeri, in cui ogni possibile valore numerico (codice) esprime una funzione (istruzione); i programmi presiedono, assistendo l’uomo, ai processi di digitalizzazione dell’informazione. I dati sono il prodotto di tali processi • il termine software indica cumulativamente sia i programmi che i dati, e si contrappone tradizionalmente alla parola hardware, ovvero la componente fisica di un sistema di calcolo (computer) che rende materialmente possibile l'esecuzione (cioè l’utilizzo) del software di cui sono composti i programmi e - loro tramite – l’elaborazione dei dati • l’insieme dei programmi eseguiti da un computer costituisce il software di sistema • il software di un moderno computer non si riduce a una manciata di programmi più o meno sofisticati, ma è un insieme complesso e articolato di componenti, organizzati in base a una architettura: i componenti software quando devono essere eseguiti sono letti da periferiche esterne (dischi, flash memory, rete) e caricati nella memoria principale EuClIdea 1-9 Il sistema operativo • Cuore della architettura software di un computer è il sistema operativo, costituito da: 1. un kernel (nucleo o monitor), che fornisce ai programmi un accesso sicuro e controllato all'hardware del sistema, e assegna porzioni di tempo-macchina (scheduling) e l’accesso all'hardware a ciascun programma (multitasking) 2. un insieme di driver di gestione delle unità periferiche (dischi, rete, tastiera, …) 3. una shell di interazione dell’operatore con il sistema 4. un insieme di programmi di utilità per la gestione del sistema stesso, dei file, delle interazioni, … • I programmi che l’utente esegue sul computer (editor di testo, client di posta elettronica, firma digitale, browser, server di posta, server WEB, …) costituiscono il c.d. software applicativo, la parte più importante e preziosa di tutto il sistema • I programmi applicativi possono essere realizzati come sequenze di codici numerici eseguibili direttamente dalla CPU del sistema (la norma per la maggioranza dei programmi), oppure come sequenze di codici (numerici o simbolici) eseguibili da programmi interpreti, che implementano apposite macchine virtuali operanti a bordo del computer (java, python, perl, ruby, php, …) EuClIdea 1 - 10 LE TIPOLOGIE INFORMATICHE Sistema Itinerario PRINCIPALI DI FILE File dati e file programmi Formati di file dedicati al testo: “puri” (non strutturati) e “arricchiti” (strutturati) Formati singoli (txt, rtf, html, xml, doc/docx, odt/odf, pdf, xls/xlsx, zip, rar, arj, jar, p7m, p7s, tsr, m7m, tsd) 11 EuClIdea Sigla – pag. 11 1 - 11 File: caratteristiche e tipologie • • • • un file è un contenitore di informazioni generico, indipendente dal suo nome, ciò che lo caratterizza effettivamente sono: - il suo contenuto, e - le modalità di utilizzo e di accesso il sistema operativo di un computer gestisce un file in base a un insieme di informazioni aggiuntive mantenute sul file system: tra queste le modalità di utilizzo (il file può essere letto, scritto, eseguito) e le modalità di accesso (l’utente può vedere il file, leggerlo, scriverlo, cancellarlo, copiarlo, …) Attenzione a questa differenza: i sistemi operativi non-Microsoft (Unix, Linux, MacOSX, HPUX, Ultrix, AIX, …) riconoscono il tipo di ogni file in base al suo contenuto, e lo trattano di conseguenza i sistemi operativi Microsoft, per contro, riconoscono la tipologia del file in base al nome, e più precisamente in base alla sua “estensione” (un gruppo di caratteri, di solito tre, separati dal nome mediante un punto, e posti alla fine del nome a mo’ di suffisso, es. relazione.doc, tabulato.xls, messaggio.eml, datiatto.xml, ecc.) Inoltre i file sono divisi in due grandi famiglie: “dati” e “programmi” EuClIdea 1 - 12 File: caratteristiche e tipologie • i file dati sono quelli che rivestono la maggiore importanza: mentre i programmi sono realizzati dalle case produttrici di software, che ne detengono i relativi diritti di proprietà intellettuale, i file di dati che sono creati, modificati o (all’occorrenza) distrutti per il tramite dei programmi rappresentano il prodotto diretto dell’attività informatica dell’utente, che sul contenuto del file vanta i diritti tipicamente spettanti all’autore di un’opera intellettuale (ed è altresì il “titolare” dei dati personali che siano trattati con l’ausilio dell’elaboratore) • Per motivi di carattere organizzativo la regola “tipo = estensione”, adottata dai sistemi operativi Microsoft, è diventata uno standard de facto, adottato da tutti gli utenti, indipendentemente dai sistemi operativi utilizzati • La tabella sulla pagina seguente elenca – delle decine e decine di estensioni esistenti ed utilizzate per identificare una data tipologia di file - alcune delle estensioni di “file dati” più utilizzate ed i relativi usi, indicando in alcuni casi quali sono i programmi che dapprima generano e quindi gestiscono detti file (esiste solitamente un’accoppiata “programma / formato dei dati generati”, anche se diversi programmi sanno gestire più formati di file) EuClIdea 1 - 13 File: le estensioni più diffuse EuClIdea .txt file di testo .mp3, .ogg, .wav, … tracce sonore (audio) .jpg, .png, .bmp, .gif, .psd, … immagini digitali statiche .avi, .mpeg, .wmv, .mp4, .3gp, .flv, … immagini digitali in movimento (video) .exe, .com, .bat, .cmd programmi e scripts eseguibili in Windows .htm, .html, .shtml, .shtm, .stm, pagine web statiche .asp, .aspx, .php, .dwt, .pl, .py, … pagine web dinamiche o script .rtf file di testo Rich Text Format .doc, .docx file di testo prodotti con Microsoft Word .xls, .xlsx fogli di calcolo prodotti con Microsoft Excel .odt file di testo prodotti con Open Office Writer .ods fogli di calcolo prodotti con Open Office Calc .odp Presentazioni Open Office Impress .odb database Open Office Base .xml e derivati (.xsd, .xslt. …) documenti XML (eXtensible Markup Language) .pdf documenti di tipo Portable Document Format .zip, .rar, .arj, .enc file contenitori di contenuti compressi/crittati .dwg, .dxf disegni prodotti con CAD (computer aided design) .p7m, .p7s file firmati digitalmente .tsr marche temporali .tsd file firmati digitalmente e marcati temporalmente .m7m file firmati digitalmente e marcati temporalmente .eml, .msg file di posta elettronica 1 - 14 File: caratteristiche e tipologie • Ci soffermeremo nelle prossime slides sulle tipologie di file di più immediato interesse per il professionista forense, in considerazione: a) dell’utilizzo generale e diffuso delle applicazioni per ufficio che elaborano testi o fogli di calcolo (spreadsheet) b) delle disposizioni tecniche del processo civile telematico: i. sul formato richiesto per gli atti processuali informatici di parte (art. 11 DM 44/2011 e art. 12 provv. 16/4/2014) ii. sui formati ammessi dei documenti digitali producibili in giudizio (.pdf di tipo /A .odf .rtf .txt .jpg .gif .tiff .xml .eml .msg – v. art. 13 provv. 16/4/2014) iii. sui cc.dd. formati di file “compressi” (.zip .rar .arj), anch’essi ammessi, purché contenenti files in formato processualmente ammesso iv. sul formato di certi atti processuali (es. relata di notifica) o dei files accompagnatori agli atti processuali che nelle trasmissioni telematiche recano i cc.dd. “metadati” (es. DatiAtto.xml) c) dei formati generati dall’apposizione della firma digitale e della marcatura temporale d) di quanto prevede il sistema implementato sul S.C.N.N. (Servizio di Conservazione a Norma del Notariato italiano) ossia il servizio che conserva gli atti pubblici digitali (che accetta esclusivamente il formato PDF/A per l'atto notarile, e per gli allegati il .pdf (anch’esso di tipo /A), il .jpg, il .txt o l’.xml) e) dei formati generati dalle applicazioni di posta elettronica (semplice o certificata) per la creazione di messaggi e buste, e relativi allegati (purché nei formati ammessi) EuClIdea 1 - 15 I singoli formati – i file di testo (strutturati e non) A. Formati di file dedicati al testo: “puri” (non-strutturati) e “arricchiti” (strutturati) • dobbiamo anzitutto mettere al centro dell’analisi di dettaglio le tipologie e le caratteristiche dei formati di file tradizionalmente utilizzati per contenere informazioni di tipo testuale • procederemo secondo un ordine che mette insieme una linea di progressione storica con un’altra che esprime il livello di complessità del formato del file, in termini di informazioni da esso recate in aggiunta al puro contenuto testuale, posto che tali due linee, sia pure con qualche eccezione, si sono andate sviluppando in senso parallelo • un file destinato a contenere del semplice “testo”, ovvero un contenuto immediatamente “leggibile” dall’uomo, può essere a priori composto: - da testo puro, ovvero contenente solo sequenze di caratteri ASCII stampabili - da testo “arricchito” con informazioni extra, di visualizzazione o interpretazione EuClIdea 1 - 16 I file di testo strutturati • i file di testo “arricchito” portano, oltre al testo, informazioni atte a definire: le caratteristiche di visualizzazione o stampa (font dei caratteri usati, inteso come set stilistico omogeneo: Arial, Courier, Times New Roman, ecc.; corpo, italico, sottolineatura, indentazione, fincature tabellari, …), oppure l’organizzazione delle informazioni testuali secondo schemi di definizione e interpretazione. • In questi casi si parla di “file strutturati”, in cui le informazioni aggiuntive possono essere espresse con caratteri stampabili (ovvero come testo), o con sequenze “binarie” interpretabili da programmi di visualizzazione o editing (contenenti sia informazioni di visualizzazione che immagini o suoni) • tipologie di file strutturati in cui le informazioni aggiuntive sono di tipo testuale: Tipo Descrizione Informazioni aggiuntive RTF Rich Text Format visualizzazione e stampa HTML HyperText Markup Language visualizzazione e stampa, link di navigazione XML eXtensible Markup Language schemi di definizione e interpretazione EuClIdea 1 - 17 I singoli formati • tipologie di file strutturati in cui le informazioni aggiuntive sono di tipo binario: Tipo Descrizione Informazioni aggiuntive DOC/DOCX Documenti MS Word visualizzazione e stampa, immagini ODF Open Document Format visualizzazione e stampa, immagini PDF Portable Document Format visualizzazione e stampa, immagini XLS/XSLX Fogli di Calcolo MS Excel visualizzazione e stampa, formule di calcolo EuClIdea 1 - 18 I singoli formati di file di testo a) il formato di file TXT • l’estensione .txt viene spesso utilizzata per indicare file che contengono solo testi alfanumerici senza alcuna informazione di controllo (font, corpo, grassetto, sottolineato, …): un file di testo contiene solo caratteri di scrittura, leggibili direttamente con un semplice editor di testo • il termine viene solitamente utilizzato in contrapposizione a file binario, che identifica qualunque tipo di file, contenente dati generici anche non direttamente leggibili dall'utente: per il computer non vi è distinzione tra i due tipi di file, poiché sono sequenze di byte • i byte dei file di testo rappresentano quindi essenzialmente solo lettere, numeri, punteggiatura, spazi e altri normali simboli stampabili, ma possono contenere anche alcuni caratteri di controllo come il tab (per la tabulazione), il carriage return ed il line feed (per andare a capo) • i file di testo, pur non permettendo la rappresentazione di testi formattati (con l’utilizzo di più font, con corpi differenti, con aree di grafica o semi-grafica, con colori differenti, con sottolineature, italico, grassetto, …), sono in assoluto i più sicuri, in quanto non possono nascondere al loro interno informazioni non desiderate EuClIdea 1 - 19 I singoli formati di file di testo b) il formato di file RTF (Rich Text Format) • Rich Text Format (spesso abbreviato RTF) permette di mantenere la formattazione e le immagini presenti in un documento ma non include nessuna “macro” (istruzioni ad esecuzione automatica), quindi è più sicuro rispetto a documenti di Office per l'invio di allegati di posta elettronica: un file RTF contiene solo caratteri ASCII, con stringhe speciali per il controllo delle informazioni di formattazione del testo • In ambito giuridico è consigliato l’uso di documenti "statici", senza macroistruzioni: oltre ai file di testo “puro” (.txt) il Rich Text Format (.rtf) rappresenta una valida scelta, ed è lo standard “de facto” in molti contesti in cui è richiesto l’uso di documenti testuali • solo ultimamente gli si preferisce il formato .pdf/A (v. oltre) EuClIdea 1 - 20 Altri formati di file di testo c) HTML (HyperText Markup Language) • l'HyperText Markup Language (HTML) (linguaggio a marcatori per ipertesti) è il linguaggio di mark-up solitamente usato per la formattazione di documenti ipertestuali disponibili nel World Wide Web sotto forma di pagine web • una pagina web, per essere visibile e intelligibile sul Web, deve essere formattata con codici trasformabili universalmente: il linguaggio di formattazione è l'HTML, e la formattazione consiste nell'inserimento nel testo di marcatori o etichette, detti tag, che descrivono caratteristiche come la funzione, il colore, le dimensioni, la posizione relativa all'interno della pagina • l'HTML supporta l'inserimento di script e oggetti esterni quali immagini o filmati: l’estensione dei nomi dei file HTML è .html (o .htm) • attualmente i documenti HTML sono in grado di incorporare molte tecnologie, che offrono la possibilità di aggiungere al documento ipertestuale controlli più sofisticati sulla resa grafica, interazioni dinamiche con l'utente, animazioni interattive e contenuti multimediali EuClIdea 1 - 21 I testi contenenti un linguaggio di mark-up d) XML (eXtensible Markup Language) • in generale un linguaggio di markup è un insieme di regole che descrivono i meccanismi di rappresentazione (strutturali, semantici, di presentazione) di un testo, utilizzando convenzioni standardizzate utilizzabili su più supporti • la tecnica di composizione di un testo con l'uso di marcatori (o espressioni codificate) richiede quindi una serie di convenzioni, ovvero appunto di un linguaggio di documenti a marcatori • l’XML (eXtensible Markup Language) è un linguaggio di markup basato su un meccanismo sintattico che consente di definire e controllare il significato degli elementi contenuti in un documento o in un testo • l’XML è uno strumento che permette di essere utilizzato nei più diversi contesti (la definizione strutturale di documenti, lo scambio di informazioni tra sistemi diversi, la rappresentazione di immagini, la definizione di formati di dati) • E’ il formato scelto nell’implementazione pratica del processo civile telematico, consentendo la strutturazione dei file accompagnatori delle PEC che trasmettono atti e documenti, incluse notifiche e comunicazioni di cancelleria (es. datiAtto.xml) EuClIdea 1 - 22 (segue) I testi contenenti un linguaggio di mark-up XML (eXtensible Markup Language) (cont.) • rispetto all'HTML, l'XML ha uno scopo diverso: il primo definisce una grammatica per la descrizione e la formattazione di pagine WEB, il secondo è un metalinguaggio utilizzato per creare nuovi linguaggi, atti a descrivere documenti strutturati • mentre l'HTML ha un insieme ben definito e ristretto di tag, con l'XML è invece possibile definirne di propri a seconda delle esigenze: per chiarire, esaminiamo il seguente esempio di un file XML <?xml version="1.0" encoding="UTF-8"?> <!—insieme dei partecipanti --> <partecipanti> <!— partecipanti Giorgio Romeo --> <partecipante> <nome>Giorgio</nome> <cognome>Romeo</cognome> <indirizzo>corso De Rege 33</indirizzo> <localita>Milano</localita> </partecipante> <!— partecipanti Massimiliano De Roboaldi --> <partecipante> <nome>Massimiliano</nome> <cognome>De Roboaldi</cognome> <indirizzo>via Ramozzi 82</indirizzo> <localita>Roma</localita> </partecipante> </ partecipanti> EuClIdea 1 - 23 (segue) I testi contenenti un linguaggio di mark-up XML (eXtensible Markup Language) (cont.) • l’XML permette di creare file di tipo schema, che definiscono le regole di composizione dei file XML che trasportano dati (DTD - Document Type Definition, e XML Schema) • La normativa tecnica di attuazione che accompagna il varo del processo civile telematico contiene allegati dove sono riportati i modelli (DTD) di ciascun singola tipologia di documento XML da utilizzare nella trasmissione telematica, come le relate di notifica, i biglietti di cancelleria, ecc. • Diversi linguaggi XML sono nati con specifiche “vocazioni”: XSLT: XForms: crea moduli (forms) di tipo HTML in un documento XML MathML (Mathematical Markup Language): notazioni matematiche X3D (eXtensible 3D): costruisce modelli tridimensionali, semplici e sofisticati XBRL (eXtensible Business Reporting Language): linguaggio usato per la comunicazione e lo scambio di dati finanziari e contabili WSDL (Web Services Description Language): creazione di "documenti" descrittivi di Web Service EuClIdea 1 - 24 Altri formati di testo e) formato di file DOC/DOCX (Microsoft Word) • l'estensione .doc, abbreviazione del termine inglese "document" (documento), veniva usata originariamente in informatica per indicare i file contenenti testo non formattato su una vasta gamma di sistemi operativi • nel 1990 quando Microsoft si appropriò dell'estensione .doc associandola ai file in formato “proprietario” prodotti da Microsoft Word: oggi questa estensione indica quasi sempre i file di testo formattati da MS Word, e a partire dalla versione 2007 il nuovo formato predefinito è .docx • in Microsoft Word è possibile automatizzare le attività frequenti mediante le cc.dd. macro: una macro è costituita da una sequenza di comandi e istruzioni raggruppati insieme in un singolo comando che consente di eseguire automaticamente un'attività; • Ci sono poi i c.d. “campi” variabili, che identificano contenuti del documento che cambiano di volta in volta (ad es. la data, il numero di pagina, ecc.) • A motivo di questa “mutevolezza” il formato .doc non viene accettato per la redazione di documenti destinati ad essere indipendenti ed immutabili nel tempo EuClIdea 1 - 25 I singoli formati f) formato di file ODT (ODF - Open Document Format) • OpenDocument (ODF), abbreviazione di OASIS Open Document Format for Office Applications, e le relative estensioni .odt (file di testo prodotti con Open Office Writer), .ods (fogli di calcolo prodotti con Open Office Calc), .odp (presentazioni Open Office Impress), .odb (database Open Office Base), è un formato aperto per l'archiviazione e lo scambio di documenti di ufficio, quali documenti di testo (memo, rapporti e libri), fogli di calcolo, diagrammi, presentazioni, data base • questo standard è stato sviluppato dal consorzio di industrie OASIS (Organization for the Advancement of Structured Information Standards) ed è impostato su una versione di XML; è pubblicamente accessibile e può essere implementato da chiunque senza restrizioni, anche grazie alla dichiarazione di Sun Microsystem, che detiene alcuni brevetti sul formato e che ha rinunciato a valersi degli stessi per tutte le implementazioni dello standard • il formato OpenDocument nasce per fornire una alternativa "aperta" a formati proprietari tra cui i ben noti formati usati da Microsoft Office, DOC, XLS, PPT e recentemente Office Open XML, nato per contrastarne l'adozione EuClIdea 1 - 26 I formati Open Document g) formato di file ODT (ODF - Open Document Format) (cont.) • nel provvedimento del 16 aprile 2014, all’art.13, si riporta l’estensione “.odf” tra le tipologie dei documenti informatici allegabili agli atti processuali, intendendo evidentemente i file ODT • al riguardo bisogna distinguere tra la tipologia ODF (Open Document Format) e le singole estensioni dei file ODF, riassunte nella seguente tabella, in cui si vede che l’estensione “.odf”, in senso stretto e proprio, è relativa a file di formule, e non a testi recanti gli atti processuali Estensione del file EuClIdea Tipo di documento .odt Testo formattato .odb Database .ods Foglio di calcolo .odp Presentazione .odg Disegno .odc Grafico .odf Formula .odi Immagine .odm Modello di documento 1 - 27 I singoli formati: il PDF h) formato di file PDF (Portable Document Format) • il Portable Document Format (PDF) è un formato di file basato su un linguaggio di descrizione di pagina sviluppato dalla Adobe Systems nel 1993 per rappresentare documenti in modo indipendente dallo hardware e dal software utilizzati per generarli o per visualizzarli • un file PDF può descrivere documenti che contengono testo e/o immagini in qualsiasi risoluzione grafica: è un formato “aperto”, nel senso che chiunque può creare applicazioni che leggono e scrivono file PDF senza dover pagare royalties alla Adobe Systems • ogni documento PDF contiene una completa descrizione del documento composta da proprietà (Titolo, Autore, ecc.), testo, stili di carattere (font), immagini e oggetti di grafica vettoriale 2D e 3D che lo compongono • un documento PDF non include informazioni specifiche relative al software, hardware e sistema operativo usato per la sua generazione: quindi il documento viene visualizzato e “renderizzato” nello stesso esatto modo, indipendentemente dalla piattaforma e/o dispositivo utilizzato per leggerlo EuClIdea 1 - 28 I singoli formati formato di file PDF (Portable Document Format) (cont.) • il formato è stato standardizzato in una serie di sottoformati, pensati in funzione di esigenze specifiche Sigla Nome Uso specifico PDF/A PDF/Archiving archiviazione a lungo termine PDF/X PDF/Exchange arti grafiche e la prestampa PDF/E PDF/Engineering documentazione di tipo ingegneristico PDF/H PDF/Healthcare settore sanitario PDF/UA PDF/Universal Accessibility Accessibilità • se si vuole archiviare o inviare un file PDF in modo stabile e con la massima possibilità di diffusione, si deve utilizzare il formato PDF/A, che è articolato in ulteriori sottoformati • il PDF/A è stato codificato il 28 settembre 2005 come standard ISO 9005-1:2005: la norma ISO 19005-1 specifica comunque due possibili diversi livelli di conformità allo standard: - PDF/A-1a (ISO 19005-1 Level A Conformance in Part 1) - PDF/A-1b (ISO 19005-1 Level B Conformance in Part 1) EuClIdea 1 - 29 I singoli formati: fogli di calcolo B. Formati di file dedicati ai fogli di calcolo (fogli elettronici): XLS/XSLX (MSExcel), ODS (Open Office Calc) • Microsoft Excel è un programma dedicato alla produzione ed alla gestione dei fogli elettronici: Fa parte della suite di software di produttività personale Microsoft Office, ed è disponibile per i sistemi operativi Windows e Macintosh • l'estensione .xls, per le versioni dalla 97 alla 2003, e .xlsx, dalla versione 2007, identifica la maggior parte dei fogli di calcolo (in inglese spreadsheet) o cartella di lavoro creati con Excel (il tipo MIME dei file identificati da questa estensione è tipicamente application/vnd.ms-excel) • N.B. Tra i formati di file ammessi per le produzioni processuali digitali non rientra alcun tipo di foglio di calcolo: è quindi necessario passare attraverso la previa conversione del file da Excel (o altra applicazione analoga) ad un formato accettato, come il .pdf/A EuClIdea 1 - 30 La trasformazione dei file in formato “compresso” (e quelli in formato crittato) C. Formati di file compressi (ZIP, RAR, ARJ, JAR, …) e crittati (ENC) • • • • Con il termine “compressione dei dati” si identificano varie tecniche utilizzate sia per ridurre le dimensioni di un file (e quindi lo spazio necessario alla sua memorizzazione), sia per ridurre l'occupazione di banda necessaria in una generica trasmissione dati digitale (come ad esempio una trasmissione televisiva digitale) La compressione dell'informazione è operata in modo da eliminare la ridondanza presente nelle “sequenze di bit” e ottenere un'alta efficienza dimensionale: l'importanza della compressione sta nel fatto che in difetto non sarebbe possibile offrire una vasta collezione di contenuti attraverso Internet a causa dell’eccessiva limitatezza della banda disponibile, mentre per l’allocazione dei file si dovrebbero utilizzare, ben maggiori dimensioni dei dischi e dei supporti di memorizzazione. Il parametro di qualità che valuta l'efficienza della compressione è il “rapporto di compressione” (o o tasso di compressione), che dipende dalla tipologia del file (di testo semplice, di testo strutturato, binario), dalla presenza al suo interno di aree a contenuto “ripetitivo”, e ovviamente dall’algoritmo di compressione utilizzato. I file crittati possono invece considerarsi quelli in cui l’algoritmo di conversione (che ottenga o meno un effetto di compressione) realizza principalmente una versione del file che risulta incomprensibile senza l’ausilio di una “chiave” di decrittatura, a scopo di segretazione del contenuto; sia nella compressione che nella crittatura, mittente e destinatario abbisognano di software adatto EuClIdea 1 - 31 (segue) i formati compressi/crittati ENC • è il formato scelto per il confezionamento (e la segretazione) delle buste trasmesse ai server ministeriali per il deposito di atti e documenti del processo telematico ZIP • è il formato di compressione più diffuso, tanto che gli ultimi sistemi operativi Windows sono in grado di eseguire la compressione/decompressione in questo formato • ogni file viene compresso separatamente, il che permette di estrarre rapidamente i singoli files (talvolta anche da files parzialmente danneggiati) a discapito della compressione complessiva: un file Zip si riconosce grazie alla testata "PK" (codifica ASCII) contenuta nei primi byte del file • essendo un formato senza perdita di informazioni (c.d. loss-less), viene spesso utilizzato per inviare programmi o file che per natura non devono minimamenrte essere alterati dal processo di compressione RAR • è un formato di file proprietario per l'archiviazione e la compressione di dati, sviluppato a partire dal 1993 da Eugene Roshal. RAR è infatti un acronimo di Roshal ARchive • RAR è generalmente più lento nelle operazioni di compressione rispetto ad altri algoritmi, ma è in grado di ottenere un rapporto di compressione migliore • oltre all'elevato rapporto di compressione, il formato RAR offre alcune funzionalità originali (gestire archivi in volumi con efficienza e semplicità, creare archivi compatti, criptare gli archivi con parole chiave, inserire settori di recupero per prevenire il danneggiamento dei dati, gestire flussi NTFS) EuClIdea 1 - 32 (segue) I formati compressi formati di file compressi (ZIP, RAR, ARJ) (cont.) ARJ • è un software di archiviazione file, scritto da Robert K. Jung: ARJ significa Archiviato da Robert Jung, e attualmente non ha vasta diffusione • ARJ fu uno dei principali programmi di archiviazione nel periodo che andava dagli inizi fino alla metà degli anni novanta: il livello di compressione di ARJ era lievemente migliore ad esempio dello ZIP, ma per contro era apprezzabilmente più lento • ARJ permette di creare e gestire archivi multi-volume (archivi suddivisi in file più piccoli e quindi più pratici per la trasmissione per telefono o per la distribuzione con floppy disk), e inoltre consente all'utente di modificare il livello di compressione N.B.: La compressione dei files – benché ne generi una versione “impacchettata”, non direttamente utilizzabile - può essere operazione indispensabile per poter ridurre le dimensioni dei files entro limiti determinati. La normativa tecnica di attuazione del processo civile telematico riduce le dimensioni massime dell’invio telematico di atti e documenti allegati alla dimensione massima di 30 megabyte, benché – con intervento normativo recente (art. 51 D.L. 90/2014, a modifica dell’art. 16-bis del 179/12, conv. in L. 221/12, con aggiunta in fine al comma 7) – sia stato concesso inviare più di un messaggio di PEC, allo scopo di ovviare a tale limitazione tecnica EuClIdea 1 - 33 I formati-firmati D. Formati dei file firmati digitalmente (metodo CAdES) e/o marcati temporalmente (P7M, P7S, TSR, M7M, TSD, …) • la firma elettronica (oggetto del secondo modulo di studio) rappresenta l'insieme dei dati in forma elettronica, allegati oppure connessi tramite associazione logica ad altri dati elettronici, utilizzati come metodo di identificazione informatica • può essere basata su varie tecnologie, tra cui la crittografia a chiavi asimmetriche (una privata e una pubblica): in ambito legislativo si distinguono per tipologia e per disciplina giuridica applicabile le varie soluzioni di firma elettronica semplice, di firma elettronica avanzata, di firma elettronica qualificata e di firma digitale (in senso stretto) • l’apposizione di una firma digitale a un documento (file), e/o la sua marcatura temporale, così come le successive operazioni di verifica di validità e autenticità, sono operazioni che vengono effettuate con il concorso di appositi programmi, normalmente rilasciati gratuitamente dagli enti certificatori accreditati ovvero da altre entità interessate al compimento della verifica (ad es. una P.A.) EuClIdea 1 - 34 I file firmati secondo lo standard CAdES e quelli “detached” P7M / P7S • qualunque file può essere firmato digitalmente secondo le modalità e specifiche tecniche espresse dallo standard PKCS#7 - CAdES (Public-Key Cryptography Standards n.7 - Cryptographic Message Syntax Advanced Electronic Signature) come previsto dalla normativa vigente, generando un file con estensione ‘.p7m’ • la convenzione così adottata ha un puro fine gestionale, per facilitare l’utente nella identificazione e classificazione dei file che tradizionalmente si compie in base al nome: lo stesso file ‘documento.pdf.p7m’ potrebbe essere rinominato in ‘documento.p7m’ senza perderne in validità, identificabilità, leggibilità o altro, in quanto, in fase di verifica e conseguente estrazione del file originale, il nome originale di quest’ultimo è contenuto nel file in formato P7M e non viene derivato dal nome del file firmato • un file firmato P7M è di tipo ‘attached’, ovvero il file firmato è una sorta di “busta”, dove un unico file contiene al suo interno sia il file originale che i dati di firma; il CAdES differisce peraltro da quei formati di firma (es. PAdES, XAdES) che collocano i dati di firma direttamente all’interno del file (v. modulo 2), senza variare l’estensione • tecnicamente è possibile anche generare una firma di tipo ‘detached’, in cui i dati di firma sono salvati in un file separato con estensione ‘.p7s’, che non contiene - e non è da confondere con - il file originale: tale soluzione ha finito per essere tacitamente ricompresa nella definizione normativa della firma elettronica, e ciò benché la normativa escluda soluzioni di firma “detached” dall’ambito della firma digitale EuClIdea 1 - 35 I file formati formati dei file marcati temporalmente (TSR, M7M, TSD, …) TSR • la marca temporale di un file, richiesta a una TSA (Time Stamp Authority) secondo lo standard RFC 3161, viene salvata in un file con estensione ‘.tsr’: è compito delle applicazioni documentali mantenere l’accoppiamento dei file ‘.tsr’ contenenti le marche temporali, con i relativi file associati M7M • per mantenere un file firmato digitalmente (con estensione ‘.p7m’) unitamente alla sua marca temporale (‘.tsr’) in un unico file alcune applicazioni software ricorrono ad un artifizio, creando un file di tipo S/MIME con estensione ‘.m7m’, un unico contenitore che al suo interno mantiene il file firmato digitalmente ( ‘.p7m’) e la sua marca temporale (‘.tsr’) TSD • secondo lo standard RFC 5544 (Syntax for Binding Documents with Time-Stamps), successivamente esteso dal nuovo RFC 5955 (The application/timestamped-data Media Type), è possibile creare file con estensione ‘.tsd’ contenenti insieme sia il documento firmato che la marca temporale associata • l’effetto è analogo al citato M7M, ma con la differenza che è uno standard internazionale riconosciuto dalla normativa, e come tale trattabile liberamente in qualunque contesto EuClIdea 1 - 36 Gli strumenti di lavoro del giurista digitale (tra payware e freeware) EuClIdea 1 - 37 Gli strumenti di lavoro del giurista digitale (con qualche esempio tra payware e freeware) 1. Applicazione per la gestione di testi e fogli elettronici (MsOffice, Open Office, ecc.) 2. Lettura / operazioni avanzate di gestione dei documenti .pdf (evidenziazione testo ed altri tipi di annotazione dattiloscritta o manoscritta; allegazione di files esterni; fusione, separazione, rotazione di pagine), incluso il servizio di stampa su file in formato .pdf (AdobeAcrobat, Foxit PDF Reader ; PDFSam) 3. Apposizione della firma digitale (e relativa verifica) nei vari formati CAdES, PAdES e (per la fatturazione elettronica alla P.A.) XAdES (v.oltre) (ArubaSign - http://www.pec.it/Download.aspx/, Dike - https://www.firma.infocert.it/installazione/installazione_DiKe.php FirmaCerta - http://www.firmacerta.it/download.php) 4. Back-up su cloud e sincronizzazione di files e cartelle fra più dispositivi; sincronizzazione di cartelle e files in regime di condivisione fra più utenti; protezione dei dati mantenuti su cloud, con o senza servizio di pre-crittografia (Dropbox + BoxCryptor, Google Drive, I-Cloud, Groove, SpiderOak, Wuala) 5. Uso razionale/ordinato della struttura gerarchica del file system (prima) e (poi) motore di ricerca avanzata delle risorse (locali o di rete) (Yahoo Desktop Search) 6. Generatore di buste (formato file: .enc) per il deposito telematico degli atti (c.d. programma “redattore”) in formato crittato destinato ai server ministeriali (SLPCT) EuClIdea 1 - 38 Gli strumenti di lavoro del giurista digitale (tra payware e freeware) 7. Applicazione (web based o client) per la gestione della posta elettronica e della P.E.C. (es. Mozilla Thunderbird con modulo aggiuntivo P.E.C.) 8. File archiver per l’avviamento dei pacchetti (fascicoli) alla conservazione sostitutiva 9. Connessione internet veloce e web browser per l’accesso e la consultazione del Portale dei Servizi Telematici ed il deposito telematico dei documenti da parte del redattore; connessione internet di riserva, anche tramite “WiFi hotspot” offerto all’occorrenza da uno smartphone / un tablet fornito di SIM con traffico dati 10. Gestore di eventi in agenda (c.d. organizer) (es. Google Calendar) 11. Uno scanner veloce e possibilmente dotato di alimentatore automatico di fogli (c.d. ADF), su cui saper impostare i parametri relativi alla densità di scansione, espressa in punti per pollice (d.p.i. = dots per inch) 12. Un software di riconoscimento automatico di caratteri (c.d. OCR), per la generazione (all’occorrenza) di copie informatiche (o semplici estratti) di documenti analogici 13. App “Giustizia Civile Mobile” per sistemi operativi Mac o Android (per smartphone e tablet) e altre “app” freeware (Legge Vigente, Codici Simone, ecc.) EuClIdea 1 - 39 Gli strumenti di lavoro del giurista digitale (tra payware e freeware) 14. Applicazione (web based o client) per la generazione, firma digitale XAdES/CAdES, e inoltro telematico di fatture elettroniche in formato XML emesse verso le PP.AA. secondo lo standard FatturaPA (http://www.fatturapa.gov.it) N.B. Il formato della XML-Signature XAdES della FatturaPA è aderente allo standard XML-DSig enveloped (la firma è inserita in un tag aggiuntivo <ds:Signature> del tag principale <p:FatturaElettronica>). 15. Applicazione per l’estrazione dell’impronta digitale dei files (se non prevista nello stesso programma che si occupa dell’apposizione della firma digitale), mediante l’algoritmo indicato dalle norme tecniche vigenti (attualmente lo SHA-256) (es. QuickHash) EuClIdea 1 - 40 “La rivoluzione analogico/digitale nella pratica forense: le fasi vitali del documento fra informatica e diritto” Per eventuali contatti, scrivere a: • [email protected] • [email protected]; [email protected] EuClIdea (C) 2014 - Eugenio Remus & Clizio Merli