modulo 1 - da documento a file - Ordine Avvocati Busto Arsizio

Transcript

modulo 1 - da documento a file - Ordine Avvocati Busto Arsizio
DA “DOCUMENTO” A “FILE”:
Sistema
Itinerario
L’ESSENZA DELLA TRASFORMAZIONE
Documento in formato “digitale” e informazione elettronica
Sistemi di numerazione e conversione di codice
Il termine “file” ed il suo significato essenziale
Il supporto digitale e la tecnologia della memorizzazione
Software, hardware, computer
1
EuClIdea
Sigla – pag. 1
1-1
Documento in formato digitale e informazione elettronica
•
La “rappresentazione informatica” della realtà (atti, fatti, dati) è il risultato di un
processo di “digitalizzazione”, che essenzialmente si compie in due fasi:
1. La trasformazione delle grandezze fisiche che esprimono l’oggetto in
sequenze numeriche: è un processo ingegneristico (ad es. la cattura di un
suono che viene effettuata mediante un microfono associato a un
campionatore digitale) di varia natura;
2. La registrazione delle sequenze numeriche “catturate” in un contenitore
idoneo, dotato di una memoria. Ciò in quanto la finalità successiva della
cattura dell’informazione è duplice:
a)
possibilità di riprodurre l’informazione, ricreando le grandezze fisiche
originali mediante appositi apparati
b)
possibilità di elaborare ulteriormente l’informazione catturata
•
Ciò poiché un elaboratore elettronico (computer), per trattare qualunque genere
di informazione, ha necessità che questa sia codificata in forma numerica,
facendo uso di cifre, ossia (in inglese) di “digits”: ecco perché si utilizza l’aggettivo
“digitale” per indicare l’informazione elettronica
•
Cosa si deve allora intendere per documento “digitale” ?
La rappresentazione in formato numerico di un qualsiasi oggetto (testo, suono,
immagine, filmato), come tale riproducibile ed elaborabile mediante il computer
EuClIdea
1-2
Documento in formato digitale e informazione elettronica
•
In informatica (la scienza che studia - ed applica - l’informazione elettronica) si usano
comunemente, oltre al sistema decimale, il sistema binario (in base due, che utilizza
come cifre solo 0 e 1), e quello esadecimale (in base sedici, che utilizza i caratteri
numerici dallo 0 al 9 e quindi le prime sei lettere dell’alfabeto, cioè dalla A alla F)
•
Poiché la memorizzazione, come abbiamo visto, è aspetto fondamentale del processo di
digitalizzazione, occorre sapere che per essere memorizzata sui tipi sempre più evoluti
di “contenitore” che la tecnologia mette a disposizione, l’informazione elettronica deve
essere espressa in formato binario
•
Le memorie dei computer sono organizzate a celle di 8 bit: con 8 bit si hanno 256
possibili combinazioni, ovvero 256 numeri interi compresi tra 0 e 255, e una apposita
convenzione specifica quale numero corrisponde a quale carattere: questa convenzione
viene chiamata “codifica”
•
Un oggetto (testo, suono, immagine, filmato, ecc.) “codificato” in formato binario è
composto da un insieme finito di bit (zero o uno): questo “insieme finito di bit che
rappresenta un oggetto” viene denominato file (termine mutuato dall’inglese, e utilizzato
ormai universalmente : etimologicamente viene dalla parola francese fil e quindi dal latino
filum, dall’antica pratica di raccogliere i documenti in sequenze ordinate legati con una
cordicella, il filum
EuClIdea
1-3
Sistemi di numerazione e conversione di codice
Ciascuna lettera digitata
sulla tastiera viene
convertita dapprima nel
numero decimale
appartenente al codice
convenzionale
internazionale noto
come ASCII (es. 65 per
la “A”, 77 per la “M”,
ecc.)
Dopodiché il valore
decimale viene
convertito nel suo
equivalente binario ed in
tale formato è ospitato in
memoria (volatile, la
RAM) ovvero è scritto su
un supporto “stabile” di
memoria
EuClIdea
1-4
Le grandezze di memoria
Un gruppo di 8 bit viene denominato byte;
un gruppo di 1024 byte viene detto Kbyte (kilo = 1.000 bytes);
un gruppo di 1024 Kbyte viene detto Mbyte (mega = ~1.000.000 di bytes);
un gruppo di 1024 Mbyte viene detto Gbyte (giga = ~ 1.000.000.000 di bytes);
un gruppo di 1024 Gbyte viene detto Tbyte (tera = ~ 1.000.000.000.000 di bytes);
e così via: dopo il prefisso tera troviamo peta, exa, zetta, yota !!!.
•
Nel calcolo dell’ “ingombro” dell’informazione elettronica, il byte viene inteso come
quasi-sinonimo di carattere: un byte contiene un carattere di testo
•
Nella storia dell’informatica sono state definite varie codifiche, e tra queste la codifica
A.S.C.I.I. (American Standard Code for Information Interchange) ha assunto una
posizione predominante rispetto ad altre;
Nel sistema ASCII (v. tabella sulla slide seguente)
- i codici decimali da 0 a 31 e il 127 sono caratteri non stampabili (codici di controllo)
- il codice 32 corrisponde al carattere "spazio“
- i codici dal 32 al 126 sono caratteri “stampabili’
EuClIdea
1-5
Decimale (ASCII), esadecimale, binario, grafico ... insieme !
EuClIdea
1-6
Il supporto digitale e la tecnologia della memorizzazione
•
Similmente al visitatore di una biblioteca tradizionale, anche l’utente di una raccolta di
documenti digitali memorizzati su un computer deve sapere dove e come dirigere le
proprie ricerche per rintracciare il documento desiderato: ciò gli comporta un minimo di
conoscenza del sistema operativo attraverso cui i file vengono memorizzati sui
supporti di memoria permanente di un elaboratore
•
Tutti i supporti digitali sono organizzati per poter registrare e gestire file separati,
attraverso un meccanismo detto file system, grazie al quale i file sono posizionati e
organizzati nella memoria del supporto in modo facilmente rintracciabile
•
Formalmente un file system è l'insieme dei tipi di dati astratti necessari per la
memorizzazione (scrittura), l'organizzazione gerarchica, la manipolazione, la
navigazione, l'accesso e la lettura dei file
•
Ciò avviene secondo due livelli di astrazione, che rendono le risorse di
memorizzazione di massa facilmente utilizzabili:
1. organizzazione dei settori in un insieme di file di dimensioni arbitrarie
2. organizzazione dei file con nomi “gerarchici”
EuClIdea
1-7
Il supporto digitale e la tecnologia della memorizzazione
•
I file system gestiscono, oltre ai file, le directory (indici, ovvero “cartelle”): una directory
è una specifica entità del file system che elenca altre entità, tipicamente file e/o altre
directory, cosa che permette di organizzarle in una struttura ad albero
•
Una directory (o – con terminologia più – un folder) è pertanto definibile come un
percorso (path) di locazione del file system dove sono presenti file o altre directory
•
Un file system memorizza e gestisce informazioni aggiuntive di controllo per
l'accesso ai singoli file da parte di programmi e utenti: i criteri di sicurezza nell'accesso
alle operazioni sui file system sono in genere basati su liste di controllo di accesso
(access control list o ACL), grazie a cui gli utenti godono di facoltà personalizzate
rispetto ai files, non potendoli nemmeno leggere, ovvero leggere ma non anche
modificare, ovvero anche modificare, ovvero addirittura rimuovere dal supporto.
EuClIdea
1-8
Software, Hardware e Computer
•
il software è l’insieme delle informazioni utilizzate da uno o più computer e
memorizzate su uno o più supporti informatici: tali informazioni possono rappresentare
programmi, oppure dati, oppure una combinazione di entrambi
•
i programmi sono sequenze di numeri, in cui ogni possibile valore numerico (codice)
esprime una funzione (istruzione); i programmi presiedono, assistendo l’uomo, ai
processi di digitalizzazione dell’informazione. I dati sono il prodotto di tali processi
•
il termine software indica cumulativamente sia i programmi che i dati, e si contrappone
tradizionalmente alla parola hardware, ovvero la componente fisica di un sistema di
calcolo (computer) che rende materialmente possibile l'esecuzione (cioè l’utilizzo) del
software di cui sono composti i programmi e - loro tramite – l’elaborazione dei dati
•
l’insieme dei programmi eseguiti da un computer costituisce il software di sistema
•
il software di un moderno computer non si riduce a una manciata di programmi più o
meno sofisticati, ma è un insieme complesso e articolato di componenti, organizzati in
base a una architettura: i componenti software quando devono essere eseguiti sono
letti da periferiche esterne (dischi, flash memory, rete) e caricati nella memoria
principale
EuClIdea
1-9
Il sistema operativo
•
Cuore della architettura software di un computer è il sistema operativo, costituito da:
1. un kernel (nucleo o monitor), che fornisce ai programmi un accesso sicuro e
controllato all'hardware del sistema, e assegna porzioni di tempo-macchina
(scheduling) e l’accesso all'hardware a ciascun programma (multitasking)
2. un insieme di driver di gestione delle unità periferiche (dischi, rete, tastiera, …)
3. una shell di interazione dell’operatore con il sistema
4. un insieme di programmi di utilità per la gestione del sistema stesso, dei file,
delle interazioni, …
•
I programmi che l’utente esegue sul computer (editor di testo, client di posta
elettronica, firma digitale, browser, server di posta, server WEB, …) costituiscono il
c.d. software applicativo, la parte più importante e preziosa di tutto il sistema
•
I programmi applicativi possono essere realizzati come sequenze di codici numerici
eseguibili direttamente dalla CPU del sistema (la norma per la maggioranza dei
programmi), oppure come sequenze di codici (numerici o simbolici) eseguibili da
programmi interpreti, che implementano apposite macchine virtuali operanti a
bordo del computer (java, python, perl, ruby, php, …)
EuClIdea
1 - 10
LE TIPOLOGIE INFORMATICHE
Sistema
Itinerario
PRINCIPALI DI FILE
File dati e file programmi
Formati di file dedicati al testo:
“puri” (non strutturati) e “arricchiti” (strutturati)
Formati singoli (txt, rtf, html, xml, doc/docx, odt/odf, pdf,
xls/xlsx, zip, rar, arj, jar, p7m, p7s, tsr, m7m, tsd)
11
EuClIdea
Sigla – pag. 11
1 - 11
File: caratteristiche e tipologie
•
•
•
•
un file è un contenitore di informazioni generico, indipendente dal suo nome, ciò
che lo caratterizza effettivamente sono:
- il suo contenuto, e
- le modalità di utilizzo e di accesso
il sistema operativo di un computer gestisce un file in base a un insieme di
informazioni aggiuntive mantenute sul file system: tra queste le modalità di utilizzo (il
file può essere letto, scritto, eseguito) e le modalità di accesso (l’utente può vedere il
file, leggerlo, scriverlo, cancellarlo, copiarlo, …)
Attenzione a questa differenza:
 i sistemi operativi non-Microsoft (Unix, Linux, MacOSX, HPUX, Ultrix, AIX,
…) riconoscono il tipo di ogni file in base al suo contenuto, e lo trattano di
conseguenza
 i sistemi operativi Microsoft, per contro, riconoscono la tipologia del file in
base al nome, e più precisamente in base alla sua “estensione” (un gruppo
di caratteri, di solito tre, separati dal nome mediante un punto, e posti alla fine
del nome a mo’ di suffisso, es. relazione.doc, tabulato.xls, messaggio.eml,
datiatto.xml, ecc.)
Inoltre i file sono divisi in due grandi famiglie: “dati” e “programmi”
EuClIdea
1 - 12
File: caratteristiche e tipologie
•
i file dati sono quelli che rivestono la maggiore importanza: mentre i programmi sono
realizzati dalle case produttrici di software, che ne detengono i relativi diritti di
proprietà intellettuale, i file di dati che sono creati, modificati o (all’occorrenza) distrutti
per il tramite dei programmi rappresentano il prodotto diretto dell’attività
informatica dell’utente, che sul contenuto del file vanta i diritti tipicamente spettanti
all’autore di un’opera intellettuale (ed è altresì il “titolare” dei dati personali che siano
trattati con l’ausilio dell’elaboratore)
•
Per motivi di carattere organizzativo la regola “tipo = estensione”, adottata dai sistemi
operativi Microsoft, è diventata uno standard de facto, adottato da tutti gli utenti,
indipendentemente dai sistemi operativi utilizzati
•
La tabella sulla pagina seguente elenca – delle decine e decine di estensioni esistenti
ed utilizzate per identificare una data tipologia di file - alcune delle estensioni di “file
dati” più utilizzate ed i relativi usi, indicando in alcuni casi quali sono i programmi che
dapprima generano e quindi gestiscono detti file (esiste solitamente un’accoppiata
“programma / formato dei dati generati”, anche se diversi programmi sanno gestire più
formati di file)
EuClIdea
1 - 13
File: le estensioni più diffuse
EuClIdea
.txt
file di testo
.mp3, .ogg, .wav, …
tracce sonore (audio)
.jpg, .png, .bmp, .gif, .psd, …
immagini digitali statiche
.avi, .mpeg, .wmv, .mp4, .3gp, .flv, …
immagini digitali in movimento (video)
.exe, .com, .bat, .cmd
programmi e scripts eseguibili in Windows
.htm, .html, .shtml, .shtm, .stm,
pagine web statiche
.asp, .aspx, .php, .dwt, .pl, .py, …
pagine web dinamiche o script
.rtf
file di testo Rich Text Format
.doc, .docx
file di testo prodotti con Microsoft Word
.xls, .xlsx
fogli di calcolo prodotti con Microsoft Excel
.odt
file di testo prodotti con Open Office Writer
.ods
fogli di calcolo prodotti con Open Office Calc
.odp
Presentazioni Open Office Impress
.odb
database Open Office Base
.xml e derivati (.xsd, .xslt. …)
documenti XML (eXtensible Markup Language)
.pdf
documenti di tipo Portable Document Format
.zip, .rar, .arj, .enc
file contenitori di contenuti compressi/crittati
.dwg, .dxf
disegni prodotti con CAD (computer aided design)
.p7m, .p7s
file firmati digitalmente
.tsr
marche temporali
.tsd
file firmati digitalmente e marcati temporalmente
.m7m
file firmati digitalmente e marcati temporalmente
.eml, .msg
file di posta elettronica
1 - 14
File: caratteristiche e tipologie
•
Ci soffermeremo nelle prossime slides sulle tipologie di file di più immediato interesse
per il professionista forense, in considerazione:
a) dell’utilizzo generale e diffuso delle applicazioni per ufficio che elaborano testi o fogli
di calcolo (spreadsheet)
b) delle disposizioni tecniche del processo civile telematico:
i. sul formato richiesto per gli atti processuali informatici di parte (art. 11 DM
44/2011 e art. 12 provv. 16/4/2014)
ii. sui formati ammessi dei documenti digitali producibili in giudizio (.pdf di tipo /A
.odf .rtf .txt .jpg .gif .tiff .xml .eml .msg – v. art. 13 provv. 16/4/2014)
iii. sui cc.dd. formati di file “compressi” (.zip .rar .arj), anch’essi ammessi, purché
contenenti files in formato processualmente ammesso
iv. sul formato di certi atti processuali (es. relata di notifica) o dei files accompagnatori
agli atti processuali che nelle trasmissioni telematiche recano i cc.dd. “metadati”
(es. DatiAtto.xml)
c) dei formati generati dall’apposizione della firma digitale e della marcatura temporale
d) di quanto prevede il sistema implementato sul S.C.N.N. (Servizio di Conservazione a
Norma del Notariato italiano) ossia il servizio che conserva gli atti pubblici digitali (che
accetta esclusivamente il formato PDF/A per l'atto notarile, e per gli allegati il .pdf
(anch’esso di tipo /A), il .jpg, il .txt o l’.xml)
e) dei formati generati dalle applicazioni di posta elettronica (semplice o certificata) per
la creazione di messaggi e buste, e relativi allegati (purché nei formati ammessi)
EuClIdea
1 - 15
I singoli formati – i file di testo (strutturati e non)
A. Formati di file dedicati al testo: “puri” (non-strutturati) e “arricchiti” (strutturati)
•
dobbiamo anzitutto mettere al centro dell’analisi di dettaglio le tipologie e le
caratteristiche dei formati di file tradizionalmente utilizzati per contenere
informazioni di tipo testuale
•
procederemo secondo un ordine che mette insieme una linea di progressione
storica con un’altra che esprime il livello di complessità del formato del file, in
termini di informazioni da esso recate in aggiunta al puro contenuto testuale,
posto che tali due linee, sia pure con qualche eccezione, si sono andate sviluppando
in senso parallelo
•
un file destinato a contenere del semplice
“testo”, ovvero un contenuto
immediatamente “leggibile” dall’uomo, può essere a priori composto:
- da testo puro, ovvero contenente solo sequenze di caratteri ASCII stampabili
- da testo “arricchito” con informazioni extra, di visualizzazione o interpretazione
EuClIdea
1 - 16
I file di testo strutturati
•
i file di testo “arricchito” portano, oltre al testo, informazioni atte a definire:
 le caratteristiche di visualizzazione o stampa (font dei caratteri usati, inteso come
set stilistico omogeneo: Arial, Courier, Times New Roman, ecc.; corpo, italico,
sottolineatura, indentazione, fincature tabellari, …), oppure
 l’organizzazione delle informazioni testuali secondo schemi di definizione e
interpretazione.
•
In questi casi si parla di “file strutturati”, in cui le informazioni aggiuntive possono
essere espresse con caratteri stampabili (ovvero come testo), o con sequenze
“binarie” interpretabili da programmi di visualizzazione o editing (contenenti sia
informazioni di visualizzazione che immagini o suoni)
•
tipologie di file strutturati in cui le informazioni aggiuntive sono di tipo testuale:
Tipo
Descrizione
Informazioni aggiuntive
RTF
Rich Text Format
visualizzazione e stampa
HTML
HyperText Markup Language
visualizzazione e stampa, link di navigazione
XML
eXtensible Markup Language
schemi di definizione e interpretazione
EuClIdea
1 - 17
I singoli formati
•
tipologie di file strutturati in cui le informazioni aggiuntive sono di tipo binario:
Tipo
Descrizione
Informazioni aggiuntive
DOC/DOCX
Documenti MS Word
visualizzazione e stampa, immagini
ODF
Open Document Format
visualizzazione e stampa, immagini
PDF
Portable Document Format
visualizzazione e stampa, immagini
XLS/XSLX
Fogli di Calcolo MS Excel
visualizzazione e stampa, formule di calcolo
EuClIdea
1 - 18
I singoli formati di file di testo
a) il formato di file TXT
•
l’estensione .txt viene spesso utilizzata per indicare file che contengono solo testi
alfanumerici senza alcuna informazione di controllo (font, corpo, grassetto,
sottolineato, …): un file di testo contiene solo caratteri di scrittura, leggibili
direttamente con un semplice editor di testo
•
il termine viene solitamente utilizzato in contrapposizione a file binario, che identifica
qualunque tipo di file, contenente dati generici anche non direttamente leggibili
dall'utente: per il computer non vi è distinzione tra i due tipi di file, poiché sono
sequenze di byte
•
i byte dei file di testo rappresentano quindi essenzialmente solo lettere, numeri,
punteggiatura, spazi e altri normali simboli stampabili, ma possono contenere anche
alcuni caratteri di controllo come il tab (per la tabulazione), il carriage return ed il line
feed (per andare a capo)
•
i file di testo, pur non permettendo la rappresentazione di testi formattati (con l’utilizzo
di più font, con corpi differenti, con aree di grafica o semi-grafica, con colori differenti,
con sottolineature, italico, grassetto, …), sono in assoluto i più sicuri, in quanto non
possono nascondere al loro interno informazioni non desiderate
EuClIdea
1 - 19
I singoli formati di file di testo
b) il formato di file RTF (Rich Text Format)
•
Rich Text Format (spesso abbreviato RTF) permette di mantenere la formattazione e
le immagini presenti in un documento ma non include nessuna “macro” (istruzioni
ad esecuzione automatica), quindi è più sicuro rispetto a documenti di Office per
l'invio di allegati di posta elettronica: un file RTF contiene solo caratteri ASCII, con
stringhe speciali per il controllo delle informazioni di formattazione del testo
•
In ambito giuridico è consigliato l’uso di documenti "statici", senza macroistruzioni:
oltre ai file di testo “puro” (.txt) il Rich Text Format (.rtf) rappresenta una valida scelta,
ed è lo standard “de facto” in molti contesti in cui è richiesto l’uso di documenti testuali
•
solo ultimamente gli si preferisce il formato .pdf/A (v. oltre)
EuClIdea
1 - 20
Altri formati di file di testo
c) HTML (HyperText Markup Language)
•
l'HyperText Markup Language (HTML) (linguaggio a marcatori per ipertesti) è il
linguaggio di mark-up solitamente usato per la formattazione di documenti ipertestuali
disponibili nel World Wide Web sotto forma di pagine web
•
una pagina web, per essere visibile e intelligibile sul Web, deve essere formattata con
codici trasformabili universalmente: il linguaggio di formattazione è l'HTML, e la
formattazione consiste nell'inserimento nel testo di marcatori o etichette, detti tag,
che descrivono caratteristiche come la funzione, il colore, le dimensioni, la posizione
relativa all'interno della pagina
•
l'HTML supporta l'inserimento di script e oggetti esterni quali immagini o filmati:
l’estensione dei nomi dei file HTML è .html (o .htm)
•
attualmente i documenti HTML sono in grado di incorporare molte tecnologie, che
offrono la possibilità di aggiungere al documento ipertestuale controlli più sofisticati
sulla resa grafica, interazioni dinamiche con l'utente, animazioni interattive e contenuti
multimediali
EuClIdea
1 - 21
I testi contenenti un linguaggio di mark-up
d) XML (eXtensible Markup Language)
•
in generale un linguaggio di markup è un insieme di regole che descrivono i
meccanismi di rappresentazione (strutturali, semantici, di presentazione) di un testo,
utilizzando convenzioni standardizzate utilizzabili su più supporti
•
la tecnica di composizione di un testo con l'uso di marcatori (o espressioni codificate)
richiede quindi una serie di convenzioni, ovvero appunto di un linguaggio di documenti
a marcatori
•
l’XML (eXtensible Markup Language) è un linguaggio di markup basato su un
meccanismo sintattico che consente di definire e controllare il significato degli elementi
contenuti in un documento o in un testo
•
l’XML è uno strumento che permette di essere utilizzato nei più diversi contesti (la
definizione strutturale di documenti, lo scambio di informazioni tra sistemi diversi, la
rappresentazione di immagini, la definizione di formati di dati)
•
E’ il formato scelto nell’implementazione pratica del processo civile telematico,
consentendo la strutturazione dei file accompagnatori delle PEC che trasmettono atti e
documenti, incluse notifiche e comunicazioni di cancelleria (es. datiAtto.xml)
EuClIdea
1 - 22
(segue) I testi contenenti un linguaggio di mark-up
XML (eXtensible Markup Language) (cont.)
•
rispetto all'HTML, l'XML ha uno scopo diverso: il primo definisce una grammatica per
la descrizione e la formattazione di pagine WEB, il secondo è un metalinguaggio
utilizzato per creare nuovi linguaggi, atti a descrivere documenti strutturati
•
mentre l'HTML ha un insieme ben definito e ristretto di tag, con l'XML è invece
possibile definirne di propri a seconda delle esigenze: per chiarire, esaminiamo il
seguente esempio di un file XML
<?xml version="1.0" encoding="UTF-8"?>
<!—insieme dei partecipanti -->
<partecipanti>
<!— partecipanti Giorgio Romeo -->
<partecipante>
<nome>Giorgio</nome>
<cognome>Romeo</cognome>
<indirizzo>corso De Rege 33</indirizzo>
<localita>Milano</localita>
</partecipante>
<!— partecipanti Massimiliano De Roboaldi -->
<partecipante>
<nome>Massimiliano</nome>
<cognome>De Roboaldi</cognome>
<indirizzo>via Ramozzi 82</indirizzo>
<localita>Roma</localita>
</partecipante>
</ partecipanti>
EuClIdea
1 - 23
(segue) I testi contenenti un linguaggio di mark-up
XML (eXtensible Markup Language) (cont.)
•
l’XML permette di creare file di tipo schema, che definiscono le regole di
composizione dei file XML che trasportano dati (DTD - Document Type Definition, e
XML Schema)
•
La normativa tecnica di attuazione che accompagna il varo del processo civile
telematico contiene allegati dove sono riportati i modelli (DTD) di ciascun singola
tipologia di documento XML da utilizzare nella trasmissione telematica, come le relate
di notifica, i biglietti di cancelleria, ecc.
•
Diversi linguaggi XML sono nati con specifiche “vocazioni”:
 XSLT:
 XForms: crea moduli (forms) di tipo HTML in un documento XML
 MathML (Mathematical Markup Language): notazioni matematiche
 X3D (eXtensible 3D): costruisce modelli tridimensionali, semplici e sofisticati
 XBRL (eXtensible Business Reporting Language): linguaggio usato per la
comunicazione e lo scambio di dati finanziari e contabili
 WSDL (Web Services Description Language): creazione di "documenti"
descrittivi di Web Service
EuClIdea
1 - 24
Altri formati di testo
e) formato di file DOC/DOCX (Microsoft Word)
•
l'estensione .doc, abbreviazione del termine inglese "document" (documento), veniva
usata originariamente in informatica per indicare i file contenenti testo non formattato
su una vasta gamma di sistemi operativi
•
nel 1990 quando Microsoft si appropriò dell'estensione .doc associandola ai file in
formato “proprietario” prodotti da Microsoft Word: oggi questa estensione indica quasi
sempre i file di testo formattati da MS Word, e a partire dalla versione 2007 il nuovo
formato predefinito è .docx
•
in Microsoft Word è possibile automatizzare le attività frequenti mediante le cc.dd.
macro: una macro è costituita da una sequenza di comandi e istruzioni raggruppati
insieme in un singolo comando che consente di eseguire automaticamente un'attività;
•
Ci sono poi i c.d. “campi” variabili, che identificano contenuti del documento che
cambiano di volta in volta (ad es. la data, il numero di pagina, ecc.)
•
A motivo di questa “mutevolezza” il formato .doc non viene accettato per la redazione
di documenti destinati ad essere indipendenti ed immutabili nel tempo
EuClIdea
1 - 25
I singoli formati
f) formato di file ODT (ODF - Open Document Format)
•
OpenDocument (ODF), abbreviazione di OASIS Open Document Format for Office
Applications, e le relative estensioni .odt (file di testo prodotti con Open Office Writer),
.ods (fogli di calcolo prodotti con Open Office Calc), .odp (presentazioni Open Office
Impress), .odb (database Open Office Base), è un formato aperto per l'archiviazione e
lo scambio di documenti di ufficio, quali documenti di testo (memo, rapporti e libri),
fogli di calcolo, diagrammi, presentazioni, data base
•
questo standard è stato sviluppato dal consorzio di industrie OASIS (Organization for
the Advancement of Structured Information Standards) ed è impostato su una
versione di XML; è pubblicamente accessibile e può essere implementato da chiunque
senza restrizioni, anche grazie alla dichiarazione di Sun Microsystem, che detiene
alcuni brevetti sul formato e che ha rinunciato a valersi degli stessi per tutte le
implementazioni dello standard
•
il formato OpenDocument nasce per fornire una alternativa "aperta" a formati
proprietari tra cui i ben noti formati usati da Microsoft Office, DOC, XLS, PPT e
recentemente Office Open XML, nato per contrastarne l'adozione
EuClIdea
1 - 26
I formati Open Document
g) formato di file ODT (ODF - Open Document Format) (cont.)
•
nel provvedimento del 16 aprile 2014, all’art.13, si riporta l’estensione “.odf” tra le
tipologie dei documenti informatici allegabili agli atti processuali, intendendo
evidentemente i file ODT
•
al riguardo bisogna distinguere tra la tipologia ODF (Open Document Format) e le
singole estensioni dei file ODF, riassunte nella seguente tabella, in cui si vede che
l’estensione “.odf”, in senso stretto e proprio, è relativa a file di formule, e non a testi
recanti gli atti processuali
Estensione del file
EuClIdea
Tipo di documento
.odt
Testo formattato
.odb
Database
.ods
Foglio di calcolo
.odp
Presentazione
.odg
Disegno
.odc
Grafico
.odf
Formula
.odi
Immagine
.odm
Modello di documento
1 - 27
I singoli formati: il PDF
h) formato di file PDF (Portable Document Format)
•
il Portable Document Format (PDF) è un formato di file basato su un linguaggio di
descrizione di pagina sviluppato dalla Adobe Systems nel 1993 per rappresentare
documenti in modo indipendente dallo hardware e dal software utilizzati per generarli o
per visualizzarli
•
un file PDF può descrivere documenti che contengono testo e/o immagini in qualsiasi
risoluzione grafica: è un formato “aperto”, nel senso che chiunque può creare
applicazioni che leggono e scrivono file PDF senza dover pagare royalties alla
Adobe Systems
•
ogni documento PDF contiene una completa descrizione del documento composta da
proprietà (Titolo, Autore, ecc.), testo, stili di carattere (font), immagini e oggetti di
grafica vettoriale 2D e 3D che lo compongono
•
un documento PDF non include informazioni specifiche relative al software,
hardware e sistema operativo usato per la sua generazione: quindi il documento
viene visualizzato e “renderizzato” nello stesso esatto modo, indipendentemente dalla
piattaforma e/o dispositivo utilizzato per leggerlo
EuClIdea
1 - 28
I singoli formati
formato di file PDF (Portable Document Format) (cont.)
•
il formato è stato standardizzato in una serie di sottoformati, pensati in funzione di
esigenze specifiche
Sigla
Nome
Uso specifico
PDF/A
PDF/Archiving
archiviazione a lungo termine
PDF/X
PDF/Exchange
arti grafiche e la prestampa
PDF/E
PDF/Engineering
documentazione di tipo ingegneristico
PDF/H
PDF/Healthcare
settore sanitario
PDF/UA
PDF/Universal Accessibility
Accessibilità
•
se si vuole archiviare o inviare un file PDF in modo stabile e con la massima possibilità
di diffusione, si deve utilizzare il formato PDF/A, che è articolato in ulteriori sottoformati
•
il PDF/A è stato codificato il 28 settembre 2005 come standard ISO 9005-1:2005: la
norma ISO 19005-1 specifica comunque due possibili diversi livelli di conformità allo
standard:
- PDF/A-1a (ISO 19005-1 Level A Conformance in Part 1)
- PDF/A-1b (ISO 19005-1 Level B Conformance in Part 1)
EuClIdea
1 - 29
I singoli formati: fogli di calcolo
B. Formati di file dedicati ai fogli di calcolo (fogli elettronici): XLS/XSLX (MSExcel),
ODS (Open Office Calc)
•
Microsoft Excel è un programma dedicato alla produzione ed alla gestione dei fogli
elettronici: Fa parte della suite di software di produttività personale Microsoft Office, ed
è disponibile per i sistemi operativi Windows e Macintosh
•
l'estensione .xls, per le versioni dalla 97 alla 2003, e .xlsx, dalla versione 2007,
identifica la maggior parte dei fogli di calcolo (in inglese spreadsheet) o cartella di
lavoro creati con Excel (il tipo MIME dei file identificati da questa estensione è
tipicamente application/vnd.ms-excel)
•
N.B. Tra i formati di file ammessi per le produzioni processuali digitali non rientra alcun
tipo di foglio di calcolo: è quindi necessario passare attraverso la previa conversione
del file da Excel (o altra applicazione analoga) ad un formato accettato, come il .pdf/A
EuClIdea
1 - 30
La trasformazione dei file in formato “compresso”
(e quelli in formato crittato)
C. Formati di file compressi (ZIP, RAR, ARJ, JAR, …) e crittati (ENC)
•
•
•
•
Con il termine “compressione dei dati” si identificano varie tecniche utilizzate sia per
ridurre le dimensioni di un file (e quindi lo spazio necessario alla sua memorizzazione),
sia per ridurre l'occupazione di banda necessaria in una generica trasmissione dati
digitale (come ad esempio una trasmissione televisiva digitale)
La compressione dell'informazione è operata in modo da eliminare la ridondanza
presente nelle “sequenze di bit” e ottenere un'alta efficienza dimensionale:
l'importanza della compressione sta nel fatto che in difetto non sarebbe possibile
offrire una vasta collezione di contenuti attraverso Internet a causa dell’eccessiva
limitatezza della banda disponibile, mentre per l’allocazione dei file si dovrebbero
utilizzare, ben maggiori dimensioni dei dischi e dei supporti di memorizzazione.
Il parametro di qualità che valuta l'efficienza della compressione è il “rapporto di
compressione” (o o tasso di compressione), che dipende dalla tipologia del file (di
testo semplice, di testo strutturato, binario), dalla presenza al suo interno di aree a
contenuto “ripetitivo”, e ovviamente dall’algoritmo di compressione utilizzato.
I file crittati possono invece considerarsi quelli in cui l’algoritmo di conversione (che
ottenga o meno un effetto di compressione) realizza principalmente una versione del
file che risulta incomprensibile senza l’ausilio di una “chiave” di decrittatura, a scopo di
segretazione del contenuto; sia nella compressione che nella crittatura, mittente e
destinatario abbisognano di software adatto
EuClIdea
1 - 31
(segue) i formati compressi/crittati
ENC
• è il formato scelto per il confezionamento (e la segretazione) delle buste trasmesse ai
server ministeriali per il deposito di atti e documenti del processo telematico
ZIP
• è il formato di compressione più diffuso, tanto che gli ultimi sistemi operativi Windows
sono in grado di eseguire la compressione/decompressione in questo formato
• ogni file viene compresso separatamente, il che permette di estrarre rapidamente i
singoli files (talvolta anche da files parzialmente danneggiati) a discapito della
compressione complessiva: un file Zip si riconosce grazie alla testata "PK" (codifica
ASCII) contenuta nei primi byte del file
• essendo un formato senza perdita di informazioni (c.d. loss-less), viene spesso
utilizzato per inviare programmi o file che per natura non devono minimamenrte
essere alterati dal processo di compressione
RAR
• è un formato di file proprietario per l'archiviazione e la compressione di dati, sviluppato
a partire dal 1993 da Eugene Roshal. RAR è infatti un acronimo di Roshal ARchive
• RAR è generalmente più lento nelle operazioni di compressione rispetto ad altri
algoritmi, ma è in grado di ottenere un rapporto di compressione migliore
• oltre all'elevato rapporto di compressione, il formato RAR offre alcune funzionalità
originali (gestire archivi in volumi con efficienza e semplicità, creare archivi compatti,
criptare gli archivi con parole chiave, inserire settori di recupero per prevenire il
danneggiamento dei dati, gestire flussi NTFS)
EuClIdea
1 - 32
(segue) I formati compressi
formati di file compressi (ZIP, RAR, ARJ) (cont.)
ARJ
• è un software di archiviazione file, scritto da Robert K. Jung: ARJ significa Archiviato
da Robert Jung, e attualmente non ha vasta diffusione
• ARJ fu uno dei principali programmi di archiviazione nel periodo che andava dagli inizi
fino alla metà degli anni novanta: il livello di compressione di ARJ era lievemente
migliore ad esempio dello ZIP, ma per contro era apprezzabilmente più lento
• ARJ permette di creare e gestire archivi multi-volume (archivi suddivisi in file più
piccoli e quindi più pratici per la trasmissione per telefono o per la distribuzione con
floppy disk), e inoltre consente all'utente di modificare il livello di compressione
N.B.: La compressione dei files – benché ne generi una versione “impacchettata”, non
direttamente utilizzabile - può essere operazione indispensabile per poter ridurre le
dimensioni dei files entro limiti determinati. La normativa tecnica di attuazione del
processo civile telematico riduce le dimensioni massime dell’invio telematico di atti e
documenti allegati alla dimensione massima di 30 megabyte, benché – con
intervento normativo recente (art. 51 D.L. 90/2014, a modifica dell’art. 16-bis del
179/12, conv. in L. 221/12, con aggiunta in fine al comma 7) – sia stato concesso
inviare più di un messaggio di PEC, allo scopo di ovviare a tale limitazione
tecnica
EuClIdea
1 - 33
I formati-firmati
D. Formati dei file firmati digitalmente (metodo CAdES) e/o marcati temporalmente
(P7M, P7S, TSR, M7M, TSD, …)
•
la firma elettronica (oggetto del secondo modulo di studio) rappresenta l'insieme dei
dati in forma elettronica, allegati oppure connessi tramite associazione logica ad altri
dati elettronici, utilizzati come metodo di identificazione informatica
•
può essere basata su varie tecnologie, tra cui la crittografia a chiavi asimmetriche (una
privata e una pubblica): in ambito legislativo si distinguono per tipologia e per
disciplina giuridica applicabile le varie soluzioni di firma elettronica semplice, di firma
elettronica avanzata, di firma elettronica qualificata e di firma digitale (in senso
stretto)
•
l’apposizione di una firma digitale a un documento (file), e/o la sua marcatura
temporale, così come le successive operazioni di verifica di validità e autenticità, sono
operazioni che vengono effettuate con il concorso di appositi programmi, normalmente
rilasciati gratuitamente dagli enti certificatori accreditati ovvero da altre entità
interessate al compimento della verifica (ad es. una P.A.)
EuClIdea
1 - 34
I file firmati secondo lo standard CAdES e quelli “detached”
P7M / P7S
• qualunque file può essere firmato digitalmente secondo le modalità e specifiche
tecniche espresse dallo standard PKCS#7 - CAdES (Public-Key Cryptography
Standards n.7 - Cryptographic Message Syntax Advanced Electronic Signature) come
previsto dalla normativa vigente, generando un file con estensione ‘.p7m’
• la convenzione così adottata ha un puro fine gestionale, per facilitare l’utente nella
identificazione e classificazione dei file che tradizionalmente si compie in base al
nome: lo stesso file ‘documento.pdf.p7m’ potrebbe essere rinominato in
‘documento.p7m’ senza perderne in validità, identificabilità, leggibilità o altro, in
quanto, in fase di verifica e conseguente estrazione del file originale, il nome originale
di quest’ultimo è contenuto nel file in formato P7M e non viene derivato dal nome del
file firmato
• un file firmato P7M è di tipo ‘attached’, ovvero il file firmato è una sorta di “busta”, dove
un unico file contiene al suo interno sia il file originale che i dati di firma; il
CAdES differisce peraltro da quei formati di firma (es. PAdES, XAdES) che collocano i
dati di firma direttamente all’interno del file (v. modulo 2), senza variare l’estensione
• tecnicamente è possibile anche generare una firma di tipo ‘detached’, in cui i dati di
firma sono salvati in un file separato con estensione ‘.p7s’, che non contiene - e non
è da confondere con - il file originale: tale soluzione ha finito per essere tacitamente
ricompresa nella definizione normativa della firma elettronica, e ciò benché la
normativa escluda soluzioni di firma “detached” dall’ambito della firma digitale
EuClIdea
1 - 35
I file formati
formati dei file marcati temporalmente (TSR, M7M, TSD, …)
TSR
• la marca temporale di un file, richiesta a una TSA (Time Stamp Authority) secondo lo
standard RFC 3161, viene salvata in un file con estensione ‘.tsr’: è compito delle
applicazioni documentali mantenere l’accoppiamento dei file ‘.tsr’ contenenti le marche
temporali, con i relativi file associati
M7M
• per mantenere un file firmato digitalmente (con estensione ‘.p7m’) unitamente alla sua
marca temporale (‘.tsr’) in un unico file alcune applicazioni software ricorrono ad un
artifizio, creando un file di tipo S/MIME con estensione ‘.m7m’, un unico contenitore
che al suo interno mantiene il file firmato digitalmente ( ‘.p7m’) e la sua marca
temporale (‘.tsr’)
TSD
• secondo lo standard RFC 5544 (Syntax for Binding Documents with Time-Stamps),
successivamente esteso dal nuovo RFC 5955 (The application/timestamped-data
Media Type), è possibile creare file con estensione ‘.tsd’ contenenti insieme sia il
documento firmato che la marca temporale associata
• l’effetto è analogo al citato M7M, ma con la differenza che è uno standard
internazionale riconosciuto dalla normativa, e come tale trattabile liberamente in
qualunque contesto
EuClIdea
1 - 36
Gli strumenti di lavoro del giurista digitale
(tra payware e freeware)
EuClIdea
1 - 37
Gli strumenti di lavoro del giurista digitale
(con qualche esempio tra payware e freeware)
1. Applicazione per la gestione di testi e fogli elettronici (MsOffice, Open Office, ecc.)
2. Lettura / operazioni avanzate di gestione dei documenti .pdf (evidenziazione testo
ed altri tipi di annotazione dattiloscritta o manoscritta; allegazione di files esterni;
fusione, separazione, rotazione di pagine), incluso il servizio di stampa su file in
formato .pdf (AdobeAcrobat, Foxit PDF Reader ; PDFSam)
3. Apposizione della firma digitale (e relativa verifica) nei vari formati CAdES, PAdES
e (per la fatturazione elettronica alla P.A.) XAdES (v.oltre)
(ArubaSign - http://www.pec.it/Download.aspx/,
Dike - https://www.firma.infocert.it/installazione/installazione_DiKe.php
FirmaCerta - http://www.firmacerta.it/download.php)
4. Back-up su cloud e sincronizzazione di files e cartelle fra più dispositivi;
sincronizzazione di cartelle e files in regime di condivisione fra più utenti;
protezione dei dati mantenuti su cloud, con o senza servizio di pre-crittografia
(Dropbox + BoxCryptor, Google Drive, I-Cloud, Groove, SpiderOak, Wuala)
5. Uso razionale/ordinato della struttura gerarchica del file system (prima) e (poi)
motore di ricerca avanzata delle risorse (locali o di rete) (Yahoo Desktop Search)
6. Generatore di buste (formato file: .enc) per il deposito telematico degli atti (c.d.
programma “redattore”) in formato crittato destinato ai server ministeriali (SLPCT)
EuClIdea
1 - 38
Gli strumenti di lavoro del giurista digitale
(tra payware e freeware)
7. Applicazione (web based o client) per la gestione della posta elettronica e della
P.E.C. (es. Mozilla Thunderbird con modulo aggiuntivo P.E.C.)
8. File archiver per l’avviamento dei pacchetti (fascicoli) alla conservazione sostitutiva
9. Connessione internet veloce e web browser per l’accesso e la consultazione del
Portale dei Servizi Telematici ed il deposito telematico dei documenti da parte
del redattore; connessione internet di riserva, anche tramite “WiFi hotspot” offerto
all’occorrenza da uno smartphone / un tablet fornito di SIM con traffico dati
10. Gestore di eventi in agenda (c.d. organizer) (es. Google Calendar)
11. Uno scanner veloce e possibilmente dotato di alimentatore automatico di fogli (c.d.
ADF), su cui saper impostare i parametri relativi alla densità di scansione, espressa in
punti per pollice (d.p.i. = dots per inch)
12. Un software di riconoscimento automatico di caratteri (c.d. OCR), per la
generazione (all’occorrenza) di copie informatiche (o semplici estratti) di documenti
analogici
13. App “Giustizia Civile Mobile” per sistemi operativi Mac o Android (per smartphone e
tablet) e altre “app” freeware (Legge Vigente, Codici Simone, ecc.)
EuClIdea
1 - 39
Gli strumenti di lavoro del giurista digitale
(tra payware e freeware)
14. Applicazione (web based o client) per la generazione, firma digitale XAdES/CAdES, e
inoltro telematico di fatture elettroniche in formato XML emesse verso le PP.AA.
secondo lo standard FatturaPA (http://www.fatturapa.gov.it)
N.B. Il formato della XML-Signature XAdES della FatturaPA è aderente allo standard
XML-DSig enveloped (la firma è inserita in un tag aggiuntivo <ds:Signature> del tag
principale <p:FatturaElettronica>).
15. Applicazione per l’estrazione dell’impronta digitale dei files (se non prevista nello
stesso programma che si occupa dell’apposizione della firma digitale), mediante
l’algoritmo indicato dalle norme tecniche vigenti (attualmente lo SHA-256) (es.
QuickHash)
EuClIdea
1 - 40
“La rivoluzione analogico/digitale nella pratica forense:
le fasi vitali del documento fra informatica e diritto”
Per eventuali contatti, scrivere a:
•
[email protected][email protected]; [email protected]
EuClIdea (C) 2014 - Eugenio Remus & Clizio Merli