Allegato 3 - Acquisizione massiva documenti

Transcript

Allegato 3 - Acquisizione massiva documenti
U.O. Autonoma Informatica
Relazione Tecnica
Modulo di acquisizione massiva dei documenti
Codice
Classificazio Ad uso interno
ne
Autorizzati
Autore
Simone Pozzani
Nome file
ProgettoAcquisizioneMassiva
Versione
0.1
Stato
07/12/11
Data ultimo
aggiornamento
Completato
Approvato
da
Data
creazione
14/12/11
Cronologia:
Data
Autore
Motivazione
07/12/2011 Simone Pozzani
Creazione documento e prima stesura
14/12/2011 Simone Pozzani
Inserimento specifiche di gestione allegati
Sommario
1. - PREMESSA .................................................................................. 4
2. - DEFINIZIONI................................................................................ 4
3. - CARATTERISTICHE GENERALI DEL MAM....................................... 4
3.1.REQUISITI PER LA SCANSIONE......................................................................4
3.2.REQUISITI PER L'ETICHETTATURA................................................................. 4
3.3.CONTESTO DI ESECUZIONE..........................................................................5
4. - PROCESSO DI ACQUISIZIONE...........................................................5
5. - POSSIBILI SVILUPPI FUTURI............................................................7
1. PREMESSA
La presente relazione tecnica ha lo scopo di individuare i requisiti tecnici e funzionali di un
modulo software di acquisizione massiva di documenti, da integrare al sistema di gestione
documentale P@Doc.
Nel seguito del presente documento, il “modulo di acquisizione massiva” sarà per brevità
identificato dall'acronimo MAM.
2. DEFINIZIONI
Immagine: il file risultato della operazione di scansione di una singola pagina.
Documento acquisito: il file composto di più immagini, collegate tra loro da un'unica
segnatura di protocollo, apposta sulla prima pagina. La segnatura di protocollo identifica
se si tratta di documento principale o di allegato.
Documento associato: un documento acquisito dal MAM e associato ad una registrazione
di protocollo informatico sul sistema P@Doc.
3. CARATTERISTICHE GENERALI DEL MAM
Il MAM deve consentire la scansione in serie di più documenti, le cui informazioni minime
sono già presenti nel registro di protocollo, e la corretta associazione degli stessi alle
rispettive registrazioni di protocollo.
Per fare ciò, il modulo sarà dotato delle seguenti caratteristiche di base:
•
Capacità di individuare la separazione tra un documento e il successivo, attraverso il
riconoscimento della presenza di una etichetta con codice a barre, posta in posizione
variabile sul documento;
•
Capacità di lettura del codice a barre e di estrazione da esso delle informazioni che
identificano univocamente il documento all'interno del registro di protocollo (numero di
protocollo, anno, area organizzativa omogenea, o codice identificativo univoco);
•
Capacità di discriminare, attraverso lettura del codice a barre, se il documento in
elaborazione è il documento principale o un allegato;
•
Memorizzazione della copia digitalizzata del documento in formati idonei alla archiviazione
elettronica (tiff, pdf/a);
•
Associazione della copia digitale del documento alla registrazione di protocollo esistente;
•
Predisposizione al riconoscimento OCR di campi specifici inseriti in modelli cartacei
standard.
3.1. REQUISITI PER LA SCANSIONE
Il MAM deve potersi interfacciare con qualsiasi scanner conforme allo standard TWAIN 1.8
o superiore.
3.2. REQUISITI PER L'ETICHETTATURA
Il MAM deve poter riconoscere il codice a barre posto sulle etichette generate da una
qualsiasi delle stampanti supportate dal sistema P@Doc. Lo standard di codice a barre
utilizzato è Interleaved 2 to 5 (codice adottato da Poste Italiane per la segnatura delle
raccomandate) con orientamento orizzontale. Il MAM, nella fase di riconoscimento, deve
dare priorità a tale tipologia di codice, per minimizzare possibili interferenze dovute alla
presenza di altri codici a barre sullo stesso documento.
3.3. CONTESTO DI ESECUZIONE
Il processo di acquisizione massiva, gestito dal MAM, si inserisce nel più generale processo
di registrazione di protocollo e acquisizione differita, come illustrato dal diagramma
seguente.
DOCUMENTI
PROTOCOLLAZIONE
PREPARAZIOE
ALLA SCANSIONE
UTENTE
ACQUISIZIONE
MASSIVA
MAM
ARCHIVIAZIONE
CARTACEO
UTENTE
Protocollazione: registrazione di protocollo attraverso il sistema P@Doc, ed apposizione
sulla prima pagina del documento e degli eventuali allegati dell'etichetta con la segnatura
di protocollo e il codice a barre.
Preparazione alla scansione: rimozione di eventuali punti metallici o altri dispositivi di
legatura dei fogli, corretto ordinamento dei fogli costituenti il documento, posizionamento
del documento nel lotto da acquisire, posizionamento del lotto nell'alimentatore dello
scanner, avvio del MAM attraverso l'interfaccia di P@Doc.
Acquisizione massiva: il MAM effettua le operazioni descritte successivamente in dettaglio.
Archiviazione cartaceo: archiviazione dei documenti originali secondo le regole
organizzative, eventuale gestione delle anomalie segnalate dal MAM al termine del
processo di acquisizione.
4. PROCESSO DI ACQUISIZIONE
L'avvio del processo di acquisizione massiva è demandato ad un applicativo esterno
(P@Doc), che fornisce al MAM i seguenti dati di input:
•
Il dispositivo di acquisizione (scanner) da utilizzare;
•
Il formato dei file immagine da produrre (Tiff o PDF/A);
•
La tipologia di documenti da acquisire.
La tipologia di documenti è utilizzata per identificare la categoria documentale appropriata
per il recupero automatico dei campi fissi attraverso la funzionalità OCR (sviluppo futuro).
Si suppone che ad una sessione di scansione corrisponda una tipologia omogenea di
documenti da acquisire.
Avviato il processo, il MAM acquisisce le immagini dallo scanner suddividendo i documenti
sulla base dei separatori individuati (etichette con codici a barre), ed associando le
immagini acquisite alle rispettive registrazioni di protocollo. Al termine delle operazioni, il
MAM presenta all'utente un rapporto sulle attività svolte.
START
APRI
SESSIONE
SCANSIONE
ESISTE
DOC?
NO
SI
NO
FILE
APERTO?
SI
NO TROVATO
BARCODE?
CONTATORE
SI
SESS
<>0?
SI
SI
FILE
APERTO?
NO
FILE
APERTO?
NO
CHIUDI
FILE
NO
LEGGI
ID
CHIUDI
SESSIONE
APRI
NUOVO FILE
ASSOCIA
PROTOCOLLI
ACCODA
SCANSIONE
RAPPORTO
SESSIONE
END
SI
CHIUDI
FILE
Il comportamento logico del MAM è schematizzato dal diagramma di flusso seguente.
L'intero processo di acquisizione deve essere gestito secondo una logica transattiva, con
possibilità di roll-back in caso di operazioni non andate a buon fine, e di commit solo in
caso di risposta positiva dal server.
Le attività mostrate nel diagramma sono di seguito esplicitate.
Leggi ID: dal codice a barre viene estrapolato l'identificativo univoco della registrazione di
protocollo corrispondente, da associare al file acquisito (ad es. attraverso il nome file),
distinguendo se si tratti di documento principale o di allegato.
Accoda scansione: l'immagine scansita è aggiunta al file già aperto e va a costituire la
pagina n-sima del documento.
Contatore sess <>0: è previsto un controllo allo scopo di verificare se, a sessione aperta e
alimentatore vuoto dello scanner, esista un ultimo file immagine da chiudere prima di
chiudere la sessione.
Associa protocolli: il MAM, per ogni documento acquisito (principale o allegato), invoca
l'applicativo di gestione documentale esterno (P@Doc) passando l'identificativo univoco di
registrazione e il file, in modo che l'applicativo possa effettuare l'associazione, restituendo
l'esito dell'operazione. Il MAM deve anche riportare in un file XML da trasmettere al server
P@Doc al termine della sessione tutti i metadati relativi a ciascun documento acquisito,
secondo lo standard NISO.
Rapporto sessione: al termine delle operazioni viene presentato all'utente un rapporto
riepilogativo contenente le seguenti informazioni:
•
il numero complessivo di immagini (pagine) acquisite;
•
il numero complessivo di documenti principali acquisiti;
•
il numero complessivo di documenti allegati acquisiti
•
il numero complessivo di documenti principali associati;
•
il numero complessivo di documenti allegati associati;
•
per ogni documento associato (principale o allegato), il numero di protocollo
corrispondente e il numero di pagine del documento.
5. POSSIBILI SVILUPPI FUTURI
Di seguito un elenco delle possibili funzionalità implementabili successivamente al primo
rilascio del modulo.
•
Recupero automatico del valore di campi contenuti in moduli standard, attraverso OCR;
•
Gestione delle scansioni fronte-retro.