Allegato 3 - Acquisizione massiva documenti
Transcript
Allegato 3 - Acquisizione massiva documenti
U.O. Autonoma Informatica Relazione Tecnica Modulo di acquisizione massiva dei documenti Codice Classificazio Ad uso interno ne Autorizzati Autore Simone Pozzani Nome file ProgettoAcquisizioneMassiva Versione 0.1 Stato 07/12/11 Data ultimo aggiornamento Completato Approvato da Data creazione 14/12/11 Cronologia: Data Autore Motivazione 07/12/2011 Simone Pozzani Creazione documento e prima stesura 14/12/2011 Simone Pozzani Inserimento specifiche di gestione allegati Sommario 1. - PREMESSA .................................................................................. 4 2. - DEFINIZIONI................................................................................ 4 3. - CARATTERISTICHE GENERALI DEL MAM....................................... 4 3.1.REQUISITI PER LA SCANSIONE......................................................................4 3.2.REQUISITI PER L'ETICHETTATURA................................................................. 4 3.3.CONTESTO DI ESECUZIONE..........................................................................5 4. - PROCESSO DI ACQUISIZIONE...........................................................5 5. - POSSIBILI SVILUPPI FUTURI............................................................7 1. PREMESSA La presente relazione tecnica ha lo scopo di individuare i requisiti tecnici e funzionali di un modulo software di acquisizione massiva di documenti, da integrare al sistema di gestione documentale P@Doc. Nel seguito del presente documento, il “modulo di acquisizione massiva” sarà per brevità identificato dall'acronimo MAM. 2. DEFINIZIONI Immagine: il file risultato della operazione di scansione di una singola pagina. Documento acquisito: il file composto di più immagini, collegate tra loro da un'unica segnatura di protocollo, apposta sulla prima pagina. La segnatura di protocollo identifica se si tratta di documento principale o di allegato. Documento associato: un documento acquisito dal MAM e associato ad una registrazione di protocollo informatico sul sistema P@Doc. 3. CARATTERISTICHE GENERALI DEL MAM Il MAM deve consentire la scansione in serie di più documenti, le cui informazioni minime sono già presenti nel registro di protocollo, e la corretta associazione degli stessi alle rispettive registrazioni di protocollo. Per fare ciò, il modulo sarà dotato delle seguenti caratteristiche di base: • Capacità di individuare la separazione tra un documento e il successivo, attraverso il riconoscimento della presenza di una etichetta con codice a barre, posta in posizione variabile sul documento; • Capacità di lettura del codice a barre e di estrazione da esso delle informazioni che identificano univocamente il documento all'interno del registro di protocollo (numero di protocollo, anno, area organizzativa omogenea, o codice identificativo univoco); • Capacità di discriminare, attraverso lettura del codice a barre, se il documento in elaborazione è il documento principale o un allegato; • Memorizzazione della copia digitalizzata del documento in formati idonei alla archiviazione elettronica (tiff, pdf/a); • Associazione della copia digitale del documento alla registrazione di protocollo esistente; • Predisposizione al riconoscimento OCR di campi specifici inseriti in modelli cartacei standard. 3.1. REQUISITI PER LA SCANSIONE Il MAM deve potersi interfacciare con qualsiasi scanner conforme allo standard TWAIN 1.8 o superiore. 3.2. REQUISITI PER L'ETICHETTATURA Il MAM deve poter riconoscere il codice a barre posto sulle etichette generate da una qualsiasi delle stampanti supportate dal sistema P@Doc. Lo standard di codice a barre utilizzato è Interleaved 2 to 5 (codice adottato da Poste Italiane per la segnatura delle raccomandate) con orientamento orizzontale. Il MAM, nella fase di riconoscimento, deve dare priorità a tale tipologia di codice, per minimizzare possibili interferenze dovute alla presenza di altri codici a barre sullo stesso documento. 3.3. CONTESTO DI ESECUZIONE Il processo di acquisizione massiva, gestito dal MAM, si inserisce nel più generale processo di registrazione di protocollo e acquisizione differita, come illustrato dal diagramma seguente. DOCUMENTI PROTOCOLLAZIONE PREPARAZIOE ALLA SCANSIONE UTENTE ACQUISIZIONE MASSIVA MAM ARCHIVIAZIONE CARTACEO UTENTE Protocollazione: registrazione di protocollo attraverso il sistema P@Doc, ed apposizione sulla prima pagina del documento e degli eventuali allegati dell'etichetta con la segnatura di protocollo e il codice a barre. Preparazione alla scansione: rimozione di eventuali punti metallici o altri dispositivi di legatura dei fogli, corretto ordinamento dei fogli costituenti il documento, posizionamento del documento nel lotto da acquisire, posizionamento del lotto nell'alimentatore dello scanner, avvio del MAM attraverso l'interfaccia di P@Doc. Acquisizione massiva: il MAM effettua le operazioni descritte successivamente in dettaglio. Archiviazione cartaceo: archiviazione dei documenti originali secondo le regole organizzative, eventuale gestione delle anomalie segnalate dal MAM al termine del processo di acquisizione. 4. PROCESSO DI ACQUISIZIONE L'avvio del processo di acquisizione massiva è demandato ad un applicativo esterno (P@Doc), che fornisce al MAM i seguenti dati di input: • Il dispositivo di acquisizione (scanner) da utilizzare; • Il formato dei file immagine da produrre (Tiff o PDF/A); • La tipologia di documenti da acquisire. La tipologia di documenti è utilizzata per identificare la categoria documentale appropriata per il recupero automatico dei campi fissi attraverso la funzionalità OCR (sviluppo futuro). Si suppone che ad una sessione di scansione corrisponda una tipologia omogenea di documenti da acquisire. Avviato il processo, il MAM acquisisce le immagini dallo scanner suddividendo i documenti sulla base dei separatori individuati (etichette con codici a barre), ed associando le immagini acquisite alle rispettive registrazioni di protocollo. Al termine delle operazioni, il MAM presenta all'utente un rapporto sulle attività svolte. START APRI SESSIONE SCANSIONE ESISTE DOC? NO SI NO FILE APERTO? SI NO TROVATO BARCODE? CONTATORE SI SESS <>0? SI SI FILE APERTO? NO FILE APERTO? NO CHIUDI FILE NO LEGGI ID CHIUDI SESSIONE APRI NUOVO FILE ASSOCIA PROTOCOLLI ACCODA SCANSIONE RAPPORTO SESSIONE END SI CHIUDI FILE Il comportamento logico del MAM è schematizzato dal diagramma di flusso seguente. L'intero processo di acquisizione deve essere gestito secondo una logica transattiva, con possibilità di roll-back in caso di operazioni non andate a buon fine, e di commit solo in caso di risposta positiva dal server. Le attività mostrate nel diagramma sono di seguito esplicitate. Leggi ID: dal codice a barre viene estrapolato l'identificativo univoco della registrazione di protocollo corrispondente, da associare al file acquisito (ad es. attraverso il nome file), distinguendo se si tratti di documento principale o di allegato. Accoda scansione: l'immagine scansita è aggiunta al file già aperto e va a costituire la pagina n-sima del documento. Contatore sess <>0: è previsto un controllo allo scopo di verificare se, a sessione aperta e alimentatore vuoto dello scanner, esista un ultimo file immagine da chiudere prima di chiudere la sessione. Associa protocolli: il MAM, per ogni documento acquisito (principale o allegato), invoca l'applicativo di gestione documentale esterno (P@Doc) passando l'identificativo univoco di registrazione e il file, in modo che l'applicativo possa effettuare l'associazione, restituendo l'esito dell'operazione. Il MAM deve anche riportare in un file XML da trasmettere al server P@Doc al termine della sessione tutti i metadati relativi a ciascun documento acquisito, secondo lo standard NISO. Rapporto sessione: al termine delle operazioni viene presentato all'utente un rapporto riepilogativo contenente le seguenti informazioni: • il numero complessivo di immagini (pagine) acquisite; • il numero complessivo di documenti principali acquisiti; • il numero complessivo di documenti allegati acquisiti • il numero complessivo di documenti principali associati; • il numero complessivo di documenti allegati associati; • per ogni documento associato (principale o allegato), il numero di protocollo corrispondente e il numero di pagine del documento. 5. POSSIBILI SVILUPPI FUTURI Di seguito un elenco delle possibili funzionalità implementabili successivamente al primo rilascio del modulo. • Recupero automatico del valore di campi contenuti in moduli standard, attraverso OCR; • Gestione delle scansioni fronte-retro.