SEZIONE QUARTA Specifiche Tecniche Lotto 1 Rete degli URP
Transcript
SEZIONE QUARTA Specifiche Tecniche Lotto 1 Rete degli URP
SEZIONE QUARTA Specifiche Tecniche Lotto 1 Rete degli URP Premessa.............................................................................................................................3 1 Obiettivi.........................................................................................................................3 2 L’architettura del sistema..............................................................................................5 2.1 Contesto tecnologico.................................................................................................5 2.2 Componenti del sistema............................................................................................5 2.3 Rete Urp....................................................................................................................6 3 Modulo per l’integrazione del sistema nella infrastruttura di cooperazione applicativa CART ...................................................................................................................................7 3.1 Il Proxy applicativo della infrastruttura CART ............................................................7 3.1.1 Modulo Monitoraggio .........................................................................................8 3.1.2 Livello applicativo ...............................................................................................9 3.2 La componente centrale per la cooperazione applicativa .........................................9 3.2.1 Modulo Monitoraggio .........................................................................................9 4 Modulo “Information Retrieval”.....................................................................................9 4.1 I Servizi .....................................................................................................................9 4.2 Requisiti ..................................................................................................................10 4.3 Sistema di ricerca integrato.....................................................................................12 4.3.1 La piattaforma di gestione documentale ..........................................................14 4.4 Le attività richieste ..................................................................................................16 5 Modulo “Gestione della Modulistica”...........................................................................17 6 Modulo “Tool della rete degli URP”.............................................................................18 7 Modulo “Portale della rete degli Urp”..........................................................................18 8 Gestione degli utenti e profilazione .............................................................................19 9 Documentazione.........................................................................................................19 10 Banche dati documentali di interesse regionale .........................................................19 Premessa Le procedure “Tool della Rete degli U.R.P.” eDigimoduli”, “ così come ad oggi realizzate, sono descritte nel documento “Allegato alle specifiche tecniche Lotto 1”. 1 Obiettivi Il presente documento descrive il contesto di riferimento e le specifiche per la realizzazione di un insieme di sistemi software volti a fornire ad Amministrazioni Locali ed Enti della Regione Toscana, aderenti ed interconnesse alla Rete Telematica Regionale Toscana (RTRT) , servizi dedicati direttamente ai cittadini ed erogati dagli URP. L’obiettivo primario del progetto è la realizzazione di un front-end di guida a tutte le attività afferenti ai cosiddetti “Eventi della vita” che vedono il cittadino e/o l’impresa interagire con la P.A. Il progetto vuole pertanto fornire uno strumento evoluto di supporto alle tradizionali funzioni degli URP quali: v Rispondere a tutte le domande sulle strutture e i servizi di ciascun ente Ø Quali sono i tipi di servizi e prestazioni dell’ente Ø Quale struttura/ente eroga un servizio Ø Dove sono localizzate le strutture e come contattarle v Come ottenere una data prestazione Ø Istruzioni dettagliate per l’esecuzione di ciascuna attività/sotto attività Ø Fornitura della modulistica sotto forma di moduli cartacei o elettronici con possibilità di apposizione di firma digitale v Accesso alle informazioni Ø Documentazione informativa di aiuto al cittadino che deve effettuare un’attività o che debba approfondire un tema Ø Accesso strutturato alle basi dati gestite da Enti Regionali o rese disponibili da Regione Toscana L’accesso del cittadino ai servizi oggetto del progetto potrà avvenire da più “porte” di accesso : v direttamente dal front-end dell’Ente di interesse per il cittadino v dal front-end unificato ( di seguito indicato con il termine “Portale rete degli Urp”) , strumento per l’accesso ai servizi ed alle informazioni a carattere generale, nonché per l’accesso agli URP locali v dal front-end di uno degli Enti della rete e utilizzando l’opportuno servizio informativo per l’individuazione del front-end dell’Ente di interesse Si vuol inoltre sottolineare la specificità del progetto nei confronti delle esigenze della Pubblica Amministrazione, in quanto dovranno essere tenuti nella dovuta considerazione i seguenti aspetti: Rete degli URP – Specifiche Tecniche 3 v Utilizzo di standard aperti. I protocolli e i formati utilizzati sono destinati a permanere nel tempo e quindi,a questo proposito, verranno tenute in rigida considerazione le indicazioni AIPA. v Modello di deployment flessibile. Tutte i componenti software verranno realizzati secondo un modello di sviluppo che ne consentirà il deployment sia come pacchetto software che come servizio ASP. Con quest’ultimo modello di distribuzione, Regione Toscana sarà in grado di fornire applicazioni ad altissimo valore aggiunto anche ad altre amministrazioni. v Conformità col modello di Publish & Subscribe 1 per la cooperazione applicativa. Il modello tecnologico di riferimento è quello che è già stato adottato da Regione Toscana in tutti i progetti, compresi quelli già in corso di realizzazione e soddisfa tutti i requisiti imposti dall’AIPA. v Struttura applicativa secondo il modello del Web Service. Consente di sviluppare applicazioni immediatamente utilizzabili secondo il modello ASP. Il sistema dovrà essere sviluppato in conformità a quanto specificato negli standard di Regione Toscana descritti all’ allegato 2 al Capitolato Speciale d’appalto . I moduli oggetto di descrizione di dettaglio nel seguito del presente documento sono: v Modulo per l’integrazione del sistema nella infrastruttura di cooperazione applicativa CART v Modulo “Information Retrieval” v Modulo “Gestione della Modulistica” v Modulo “Tool della rete degli URP” v Modulo “ Portale rete degli URP” v Modulo per la gestione degli utenti e profilazione Rete degli URP – Specifiche Tecniche 4 2L’architettura del sistema 2.1 Contesto tecnologico Il sistema oggetto del progetto è organizzato secondo il seguente schema a blocchi Nodo 1 Portale URP Servizi Rete Urp Tool Rete degli URP IR Web Module GM Web Module NAL DB Servizi di base NAL CRIC Nodo n DB Centrale Information Retrieval Gestione modulistica Sottosistemi preesistenti NAL Tool Rete degli URP Doc. Management system Gathering System Ente x DB 2.2 Componenti del sistema Il sistema è costituito dai seguenti componenti • Doc. Management system. Piattaforma per la gestione documentale con funzionalità base di Information Retrieval e capacità di supporto di grandi quantità di documenti. • Sistema di gathering multisorgente per consentire l’alimentazione anche da sorgenti eterogenee senza la necessità di interventi di integrazione spinta. Si tratta del sistema adottato dai moderni motori di ricerca per Internet che attraverso agenti provvedono ad Rete degli URP – Specifiche Tecniche 5 indicizzare informazioni disposte su rete geografica (il Web) senza che vengano effettuati interventi di integrazione sulle applicazioni che pubblicano tali informazioni. • Sottosistemi preesistenti in uso quali sistemi di firma elettronica che offrano servizi telematici di base . • DB. Database di informazioni relativo alle applicazioni dedicate all’URP che vengono erogate da Regione Toscana (o altro Ente) come servizio Web. I dati contenuti in questo DB vengono integrati e messi a disposizione nel front-end di information retrieval attraverso un’attività periodica dicrawling . Quindi abbiamo dei servizi di base : • Information Retrieval. Sistema di Information Retrieval e relativa interfaccia di tipo Web Service. L’interfaccia di questo servizio può essere utilizzata direttamente da terzi oppure attraverso il corrispondente modulo Web. • Gestione modulistica. Sistema di gestione della modulistica e relativa interfaccia di tipo Web Service. Anche in questo caso l’interfaccia può essere usata direttamente da terzi oppure attraverso il corrispondente modulo Web. Le componenti di applicative e di presentazione : • Tool Rete degli URP. Si tratta delle applicazioni di carattere gestionale che verranno fornite da Regione Toscana. Poiché lo sviluppo di tale strumento è già in stato avanzato, si opta per mantenerli inalterati e spostare la loro integrazione a livello di back-end (DB). • IR Web Module. Componente di front-end del sistema di Information Retrieval da integrare nel portale degli URP. • GM Web Module. Componente di front-end del sistema di gestione modulistica da integrare nel portale URP. • Altri servizi esistenti. Altri servizi eventualmente già disponibili erogati dal portale. 2.3 Rete Urp L’integrazione tra URP (rete degli URP) avverrà mediante un modello di interoperabilità congruo all’infrastruttura di Cooperazione Applicativa della Regione Toscana (Allegato 2) I singoli URP potranno operare in alternativa: a) Utilizzando il sistema reso disponibile dalla Regione Toscana in modalità ASP b) Installando presso la propria sede le applicazioni sviluppate nell’ambito del progetto per quanto concerne le funzionalità di back-office (Tool Rete degli URP) e/o le funzionalità di IR c) Fornendo a Regione Toscana le opportune interfacce per l’alimentazione delle banche dati documentali (gathering) e attivando il sistema di cooperazione applicativa per le banche dati non documentali. La base dati non documentale presente presso la Regione Toscana conterrà, comunque, la totalità delle informazioni relative al complesso degli URP con una struttura identica a quelle operanti presso i singoli URP (evidentemente per le applicazioni sviluppate all’interno del progetto). Riferendoci ai casi su indicati avremo: a) Database operativo ed aggiornato tramite accessi controllati dagli operatori periferici. Rete degli URP – Specifiche Tecniche 6 b) L’aggiornamento delle basi dati avverrà mediante opportuni software come previsto dall’infrastruttura di Cooperazione Applicativa della Regione Toscana (allegato 2) . A cadenza periodica i sistemi periferici alimenteranno il sistema centrale. Le BD hanno la stessa struttura, i dati sono omogenei. L’interfaccia tra questo particolare sistema informativo locale , oggetto della presente fornitura, e il Proxy applicativo sarà oggetto della presente fornitura. c) L’aggiornamento delle basi dati avverrà mediante opportuni software come previsto dall’infrastruttura di Cooperazione Applicativa della Regione Toscana (allegato 2) ossia mediante interfacciamento del Sistema Informativo Locale con il Proxy Applicativo . I servizi di base saranno accessibili agli enti sia mediante l’opportuno modulo Web sviluppato all’interno del portale , sia mediante una interfaccia di tipo Web Service . Questo consentirà agli Enti di utilizzare detti servizi all’interno dei loro portali o all’interno dei propri siti web. Gli Enti partecipanti al progetto sono 85. Gli Enti che intendono installare presso la propria sede le applicazioni sviluppate nell’ambito del progetto per quanto concerne le funzionalità di back-office (Tool Rete degli URP) e/o le funzionalità di IR sono 30. I restanti parteciperanno in modalità ASP. Occorre tenere presente che tali dati potranno subire nel corso del progetto variazioni. Regione Toscana si riserva pertanto di comunicare in sede di piano di lavoro, da redigere ed approvare tra le parti, l’elenco esatto degli Enti partecipanti e relativa modalità di partecipazione. 3 Modulo per l’integrazione del sistema nella infrastruttura di cooperazione applicativa CART Come abbiamo indicato nel precedente paragrafo le modalità di partecipazione degli Enti al progetto possono essere diverse. In particolare ci possono essere Enti che hanno già attivi dei sistemi informativi per la gestione delle attività degli URP in totale o parziale sovrapposizione funzionale al “Tool rete degli Urp”. Il progetto si pone dunque anche l’obiettivo diconsentire la condivisione delle informazioni e l’automazione dei processi di cooperazione senza interferire sulle modalità operative con cui le Amministrazioni agiscono per il particolare dominio applicativo. A tale scopo verrà utilizzata l’infrastruttura di Cooperazione applicativa di Regione Toscana (CART)[#1] per l’aggiornamento delle BD alfanumeriche e le funzioni di gathering del sistema di Information Retrieval per l’integrazione delle BD documentali. 3.1 Il Proxy applicativo della infrastruttura CART La infrastruttura CART si compone di due macrocomponenti principali, il Centro Regionale per l’Interoperabilità e la Cooperazione Applicativa (CRIC) ed i Nodi Applicativi Locali (NAL). I NAL sono appendici del CART all’interno delle Amministrazioni Locali / Enti aderenti ed interconnesse alla RTRT. I NAL sono progettati in modo da potersi interfacciare con relativa semplicità e flessibilità ad una molteplicità di Sistemi Informativi Locali (SIL) caratterizzati ciascuno da proprie architetture hw, sw di base e middleware, sistemi di comunicazione e applicazioni. Rete degli URP – Specifiche Tecniche 7 Varie applicazioni che richiedono cooperazione applicativa / interoperabilità tra amministrazioni locali / enti aderenti possono essere state implementate nei SIL corrispondenti con livelli di funzionalità differenziate. L’infrastruttura CART prevede sui NAL componenti Proxy per consentire ai sistemi applicativi degli enti/amministrazioni locali di interoperare sulla infrastruttura di cooperazione applicativa, in accordo alle norme. A tal fine il sistema architetturale prevede a livello generale che i Proxy Applicativi abbiano varie modalità di interazione con i SIL sia dal punto di vista delle comunicazioni che da quello, meno prevedibile e standardizzabile, delle modalità di rappresentazione dei contenuti. Il compito del proxy applicativo per l’interoperabilità è quello di fornire i necessari adattatori fra il livello applicativo del Sistema Informativo Locale, rappresentato dalle varie soluzioni di back-office URP delle Amministrazioni locali / Enti, ed il sistema di interoperabilità della infrastruttura di cooperazione applicativa della Regione Toscana assolvendo dunque ai compiti propri di un ingresso verso un sistema omogeneo di trattamento dei dati attraverso l’uso di interfacce applicative basate su di un opportuno insieme di regole di implementazione. Tale omogeneità si basa sulla scelta del trasporto delle informazioni per mezzo del sistema di messaggistica Publish & Subscribe, verso il quale tale componente ha il compito di adattare le informazioni provenienti dal livello applicativo. Il proxy di interoperabilità è residente sul NAL è costituito da tre diversi strati applicativi: • modulo per l'interoperabilità verso l'agente locale (interfaccia applicativa verso il lato dell'infrastruttura di cooperazione applicativa) • modulo interno per il trattamento delle informazioni • modulo per l'interfacciamento applicativo verso i sistemi informativi locali Ciascuno di questi componenti dovrà essere in grado di svolgere le seguenti funzioni : • trasferimento delle informazioni necessarie alla composizione/scomposizione dei vari tipi di messaggi oggetto dell’interoperabilità fra i livelli degli strati applicativi; • conversione delle suddette informazioni dal loro formato originale al meta-formato usato dalla logica applicativa del proxy e viceversa; • conversione delle informazioni sullo stato dei messaggi ottenute dalla logica applicativa nel formato adatto per l’applicazione esterna; Il modulo interno per il trattamento delle informazioni è delegato ad implementare la logica applicativa vera e propria, comune a tutti i tipi di interfacce definite verso l’esterno. L’elenco complessivo dei compiti di queste componenti sarà oggetto di progettazione Ai tre moduli su indicati si deve aggiungere • Modulo per il monitoraggio 3.1.1 Modulo Monitoraggio Svolge il compito di monitoraggio applicativo sul proxy stesso e rende disponibili, secondo un protocollo da concordare in conformità al sistema centrale di monitoraggio, le informazioni di interesse quali : numero degli aggiornamenti inviati, numero di errori etc. Rete degli URP – Specifiche Tecniche 8 3.1.2 Livello applicativo Il livello applicativo nel presente progetto è rappresentato dall’alimentazione delle BD alfanumeriche delle Amministrazioni, di interesse per la Rete degli URP : • Organigramma (uffici strutture persone) • Procedimenti amministrativi • Schede informative • Atti amministrativi • InfoUrp 3.2 La componente centrale per la cooperazione applicativa Avrà il compito di alimentare la Banca Dati Centrale su cui andranno ad insistere la componente portale per le Banche dati non documentali, e la funzione di alimentazione del sistema di Information Retrieval per le banche dati documentali. Anche qui avremo una componente per il monitoraggio 3.2.1 Modulo Monitoraggio Svolge il compito di monitoraggio applicativo della rete dei proxy applicativi dedicati alla Rete degli URP . Rende disponibili, secondo un protocollo da concordare in conformità al sistema centrale di monitoraggio, le informazioni di interesse quali : numero degli aggiornamenti inviati da ciascun proxy , numero di errori etc. Dovrà essere prevista una funzione che testi e verifichi il corretto funzionamento delle componenti centrali del sistema. Tale funzione verrà utilizzata dal sistema di monitoraggio presente nella infrastruttura di Regione Toscana. 4 Modulo “Information Retrieval” 4.1 I Servizi I servizi che si intendono realizzare sono i seguenti: • 2 Fornitura di documentazione informativa. L’implementazione di un motore di ricerca tematico comporta l’utilizzo di tecnologie specifiche a cui i tradizionali database non possono fare fronte a causa della grande quantità di documenti che si devono gestire. Per questa attività verrà impiegata una tecnologia specifica per attività di search che supporti le funzionalità di crawling2, indicizzazione dinamica e interrogazione sia per parole chiave che per tipologia e contenuto dei documenti. Per questo verrà impiegata una tecnologia di classificazione automatica di contenuti al fine di poter opportunamente collocare i documenti che vengono indicizzati nei contesti delle varie Estrazione automatica di informazioni da siti web, databases, archivi informatizzati Rete degli URP – Specifiche Tecniche 9 attività (es. fornire accesso a tutte le informazioni che riguardano argomenti correlati all’espatrio all’interno dell’attività per il rinnovo del passaporto). Il motore di ricerca inoltre faciliterà la navigazione del corpus documentale inserendo automaticamente nei documenti i riferimenti ipertestuali ai documenti correlati. Questa modalità renderà più fruibile la documentazione contenuta nelle banche dati della P.A. • Accesso strutturato alla documentazione offerta da Regione Toscana e dagli Enti aderenti. Sotto il profilo strettamente tecnologico questa attività si basa sulla stessa piattaforma di Information Retrieval citata nel punto precedente ma necessita che siano messi a punto una serie di sofisticati strumenti per la classificazione automatica di documenti che vadano oltre la semplice presenza di parole chiave nel testo. In questo senso verranno impiegate delle tecnologie di classificazione di documenti basate su tecniche di Intelligenza Artificiale e sviluppate dal partner accademico di questo progetto, leader in ambito internazionale per questo tipo di applicazioni. Regione Toscana ha già provveduto ad esplorare con tale partner, nell’ambito di convenzioni di ricerca, la possibilità di implementare su scala industriale alcune delle soluzioni già note in ambito accademico. 4.2 Requisiti ll progetto richiede lo sviluppo di servizi basati su una piattaforma di gestione documentale in grado di soddisfare i seguenti requisiti: • • • Scalabilità. Lo scopo del progetto è quello di realizzare un sistema in grado di servire sia una singola amministrazione che un gruppo attraverso la modalità ASP di erogazione del servizio. Per questi motivi il sistema di gestione documentale deve avere un'architettura che consenta una notevole scalabilità orizzontale. Riguardo a questo aspetto sono richieste le seguenti caratteristiche: • Architettura basata su nodi di elaborazione che possono essere aggiunti in funzione delle richieste di carico. • Possibilità di bilanciamento asincrono del carico tra le attività di crawling (prelievo delle informazioni) ed elaborazione. Prestazioni. Il trattamento di documenti in formato non strutturato comporta che il sistema debba essere estremamente efficace sia dal punto di vista della quantità di informazioni che è in grado di trattare che da quello delle prestazioni in fase di indicizzazione e ricerca. Si ritengono necessarie le seguenti caratteristiche per ogni singolo nodo: • Inserimento: 5 documenti/sec. • Query: 10 query/secondo • Storage: 1 milione di documenti Gathering. Il progetto prevede che si possa accedere a sorgenti di informazioni sia locali che esterne in modalità sia push che pop. Il sistema deve disporre di un sistema di crawling con le seguenti caratteristiche: • Supporto protocolli HTTP, IIOP, NNTP, RSS, IMAP, ODBC • Modalità di Web crawling per singoli siti o standard in ampiezza Rete degli URP – Specifiche Tecniche 10 • • • Possibilità di sviluppare modalità di crawling specifiche (es. focused crawling, filtri per l’accesso a database specifici). Indicizzazione. Si tratta di una caratteristica centrale del sistema per cui sono richieste le seguenti caratteristiche: • Indicizzazione completamente periodicamente gli indici. • Indicizzazione sia di parole chiave che di attributi generici. • Possibilità di inserire informazioni di classificazione all'interno dell'indice. • Possibilità di indicizzare con pesi diversi porzioni specifiche di documenti. dinamica. Nessuna necessità di ricostruire Ricerca. Il sistema deve prevedere modalità di ricerca con criteri a livelli diversi e in particolare: • Possibilità di specificare interrogazioni formate da parole chiave, categorie, attributi generici ed operatori booleani standard AND, OR, NOT e specifici come NEAR • Applicazione di meccanismi di selezione delle risposte flessibili basati sia su considerazioni topologiche del corpus documentale, di layout dei singoli documenti e di semantica attribuita da opportuni moduli di preprocessing. • Ricerca su versioni multiple storicizzate dello stesso documento. • Capacità di inserire moduli per la creazione automatica di collegamenti ipertestuali fra documenti • Integrazione. Il sistema deve potersi integrare sia con moduli software preesistenti sia forniti dagli aderenti al progetto che da Regione Toscana. Si richiede quindi che le funzionalità della piattaforma siano accessibili attraverso le seguenti tipologie di API: SOAP (.NET conforme), REST o XML-RPC. Si richiede inoltre che siano nativamente previsti meccanismi per creare federazioni di piattaforme secondo il principio del Peerto-Peer. • Storage. Uno degli scopi del progetto è quello di creare un meccanismo di caching dei contenuti affinché i documenti possano essere recuperati velocemente senza dover accedere, e quindi sovraccaricare, il repository dove sono originariamente memorizzati. Occorre che siano presenti le seguenti caratteristiche: • • Memorizzazione del documento nel suo formato originale. • Memorizzazione di una sua rappresentazione XML in cui siano codificate tutte le informazioni si di contenuto che di layout. • Storicizzazione di versioni multiple dello stesso documento. • Formato di memorizzazione criptato non accessibile da file system. • Supporto permessi utente. Formati documentali e lingue Il sistema deve essere multilingua e compatibile col formato di codifica UTF-8. Si richiede che siano supporti in tutte le fasi i seguenti formati documentali: HTML, XML, DOC, RTF, PDF, TXT. Rete degli URP – Specifiche Tecniche 11 4.3 Sistema di ricerca integrato Il sistema di ricerca integrato per banche dati contenenti informazioni sotto forma di documenti testuali è stato realizzato in forma prototipale nell’ambito di una convenzione di ricerca fra la Regione Toscana e un partner accademico. Il sistema è basato su una piattaforma di information retrieval ed è in grado di indicizzare sorgenti locali o remote attraverso un’attività denominata genericamente “G athering”. L’indice permette interrogazioni per parole chiave e categoria del documento, dove la categoria non viene assegnata manualmente ma evinta in maniera automatica dal contenuto del documento stesso. L’interfaccia di ricerca prevede l’uso di filtri per categoria e del thesaurus disponibile presso Regione Toscana. I servizi del motore di ricerca sono disponibili tramite un’interfaccia di tipo WebService. La scelta della piattaforma di information retrieval è stata effettuata sulla base delle prestazioni in termini di tempi di query e velocità di indicizzazione strutturalmente impossibili da raggiungere con l’architettura di un database relazionale. Di fondamentale importanza il supporto nativo all’integrazione di plug-in per implementare tecniche avanzate di analisi documentale e la gestione a livello di indice di “feature” generiche estratte dal documento. Il modulo di classificazione automatica del testo e’ stato infatti implementato con questa modalità cosi’ come l’integrazione del thesaurus. Lo schema funzionale della piattaforma è mostrato nella figura seguente. Set di REGEX Gatherer Servizi di ricerca hyper linker Renderer indexer Query engine Connettori ai Database thesaurus Database da indicizzare Set di CLASSI Text classifier Plug-in Il Gatherer è il modulo della piattaforma di information retrieval che si occupa di recuperare le informazioni da indicizzare dalle sorgenti. Il gatherer permette di accedere a diversi tipi di sorgenti dati una volta che sia stato definito un opportuno connettore. Di base il gatherer offre un comportamento tipo Web spider che recupera documenti seguendo i link Web in essi contenuti utilizzando il protocollo HTTP. E’ possibile indicizzare direttamente i contenuti di database definendo un opportuno Plug-In utilizzando lo schema del database (devono essere specificate le tabelle e le colonne da recuperare). Il Renderer provvede all’estrazione del testo e di altre informazioni dai documenti recuperati dal gatherer e alla costruzione di una rappresentazione XML delle informazioni adatta alla indicizzazione. Tale rappresentazione interna consente di gestire in maniera uniforme documenti in vari formati. Nel progetto vengono gestiti documenti in formato Rete degli URP – Specifiche Tecniche 12 HTML, DOC, RTF, PDF, e TXT. Il renderer attraverso opportuni plug-in aggiunge agli oggetti indicizzati delle metainformazioni. In particolare, il classificatore di testo, realizzato secondo questa filosofia, permette di aggiungere un vettore di valori che indicano il grado di appartenenza del documento rispetto ad un insieme di classi predefinito. Tali informazioni vengono poi gestite nativamente a livello di indice al fine di poter garantire adeguate prestazioni in fase di query. Il plug-in hyperlinker provvede ad aggiunge a stringhe interne al documento hyperlink verso documenti correlati. Nel prototipo l’hyperlinker utilizza un insieme di espressioni regolari (REGEX) costruite manualmente per individuare le citazioni legislative rendendo possibile la navigazione fra documenti che citano le stesse fonti o, se possibile, i riferimenti stessi. L’Indexer provvede a gestire l’indice per le ricerche full-text, classe di appartenenza, sinonimi e riferimenti sia entranti che uscenti. In particolare permette di gestire il filtraggio dei risultati di una query rispetto alla rilevanza per una o più categorie. L’indice permette anche di gestire diversi pesi per i vari criteri di ricerca. Il query engine fornisce un’interfaccia per interrogare l’indice del sistema, fornendo la possibilità di effettuare ricerche tramite parole chiave (connesse con operatori logici AND e OR, NOT e NEAR) e di applicare filtri di rilevanza basati sulla categoria o categorie selezionate. L’interfaccia di ricerca è stata anche integrata col thesaurus di Regione Toscana per permettere una navigazione sui risultati utilizzando le categorie, i termini correlati, i termini più specifici o ampi per espandere l’interrogazione. Il modulo di classificazione automatica di testo riceve in ingresso la sequenza di parole del documento da categorizzare e produce in uscita un numero reale per ogni categoria prevista nel sistema. Il valore rappresenta una valutazione dell’attinenza del documento rispetto ad una data categoria. Il classificatore utilizza un dizionario delle parole del corpus documentale estratto da un insieme di documenti di riferimento ed un insieme di regole per filtrare le parole meno informative. L’insieme dei classificatori di testo (uno per ogni categoria) viene addestrato utilizzando un insieme di documenti di esempio etichettati da un esperto che indica la categoria di appartenenza. Il modulo di classificazione realizzato nel prototipo prevede la possibilità di utilizzare un insieme di categorie non organizzate gerarchicamente e scelte fra quelle del primo livello della categorizzazione per argomenti prevista da Regione Toscana (Agricoltura, Ambiente e territorio, attività e beni culturali, attività economico-produttive, lavoro e formazione, organizzazione e attività dell’ente, sanità, scuola e istruzione, società e politiche sociali,tecnologia e scienza). La classificazione non è stretta ma è fornita come grado di appartenenza, ovvero un documento può anche essere assegnato a più di una categoria. Per l’addestramento dei classificatori è richiesto che venga mantenuto un archivio di esempi etichettati da parte di un esperto. Nel prototipo non è stata implementata una interfaccia specifica per la gestione dell’insieme di addestramento, ma sono stati semplicemente collezionati dei documenti. E’ stato previsto di migliorare il modulo di classificazione di testo realizzando una classificazione su una gerarchia di categorie invece che su un insieme di categorie non strutturate (organizzazione “piatta”). Inoltre il modulo di classificazione dovrà essere integrato con un modulo di amministrazione che permetta la necessaria flessibilità nella definizione delle categorie. Il modulo di amministrazione dovrà permettere ad un utente esperto in classificazione documentale di definire la gerarchia delle categorie e di Rete degli URP – Specifiche Tecniche 13 assegnare ad ogni categoria un insieme di documenti di esempio per addestrare il classificatore avendo al contempo sotto controllo degli indicatori di consistenza del training set. Il modulo di amministrazione della gerarchia di classificazione dovrà avere una interfaccia Web che permetta di: 1. aggiungere/eliminare categorie dalla gerarchia 2. definire relazioni gerarchiche fra categorie 3. assegnare/rimuovere un documento di esempio da una categoria. L’interfaccia dovrà infine prevedere un controllo per avviare l’addestramento dei classificatori di testo e l’integrazione delle nuove classi nell’indice del motore di ricerca. La fase di addestramento dovrà essere il più possibile trasparente all’utente amministratore, ovvero non dovrà richiedere conoscenza specifica sugli algoritmi di classificazione ed addestramento utilizzati. Il sistema dovrà guidare l’utente ad effettuare le scelte corrette per costruire dei classificatori con prestazioni soddisfacenti. L’organizzazione dell’interfaccia di ricerca dovrà essere estesa per permettere la navigazione nella lista dei risultati utilizzando la gerarchia delle categorie. Evoluzione del sistema di referenziazione automatica di contenuti da quello attualmente implementato e basato su di un archivio di REGEX. Attraverso il modulo di classificazione documentale verranno classificati i singoli paragrafi dei documenti e associati ad essi, tramite “livequery” liste di documenti semanticamente correlati. 4.3.1 La piattaforma di gestione documentale L’attività di sviluppo effettuata nell’ambito della convenzione e’ stata effettuata utilizzando piattaforma di Information Retrieval focuseek foundation . focuseek foundation e’ una piattaforma software basata sul paradigma degli oggetti distribuiti nata per essere scalabile orizzontalmente e per supportare modelli di deployment flessibili per venire incontro ad esigenze di bilanciamento del carico molto varie. Rete degli URP – Specifiche Tecniche 14 L’architettura generale e’ mostrata nel seguente schema a blocchi: SOAP API Gatherer Plug-Ins Indexer Renderer Storage Query Plug-Ins CORBA Bus Il modulo di gathering supporta nativamente il crawling di siti web o di porzioni di web con una modalità denominata Breadth First (in ampiezza). La sua struttura a plug-in consente di implementare “adattatori” per altri tipi di sorgenti di dati, sono disponibili: - DBMS: accesso alle tabelle di database (compatibilà Oracle, DB/2, Informix) - IMAP: accede alle email contenute in cartelle IMAP di cui si possiedono i diritti di accesso. - Newsgroup: indicizzazione dei gruppi di discussione disponibili su internet attraverso un provider che mette a disposizione il servizio. - File System: indicizzazione di tutti i documenti presenti in directory accessibili dal sistema siano esse remote che locali. Il modulo di indexing di focuseek indicizza in modalità full-text qualunque documento nei formati supportati. L'indicizzazione è di tipo dinamico sia per quanto riguarda l'aggiunta che la rimozione di documenti. Non sono necessari tempi morti per la ricostruzione dell'indice e nel momento in cui un documento viene inserito nell'indice esso è anche immediatamente disponibile per la query. L’indice gestisce non solamante parole chiave ma anche attributi generici che possono essere specificati in sede di query utlizzando l’usuale linguaggio di interrogazione basato su operatori booleani. Supporta nativamente informazioni di classificazione documentale e la memorizzazazione di hyperlink virtuali sia basati sull’interpretazione di espressioni regolari che sull’output di un modulo di classificazione automatica. Rete degli URP – Specifiche Tecniche 15 Il modulo di rendering integra la tecnologia di rendering focuseek che consente di dare rilevanza al contenuto di un documento e associare la generazione di metainformazioni in funzione della sua impostazione tipografica. Anche in questo caso e’ presente un’architettura a Plug-In e quindi e’ possibile integrare facilmente all’interno di questo componente moduli di analisi documentale Il modulo di rendering è strettamente accoppiato a quello di indexing per tutte le informazioni de esso estratte e si hanno in fase di retrieval le medesime prestazioni del full-text. La piattaforma focuseek dispone di una cache multilivello (modulo di storage) dei documenti nel loro formato originale ovvero per ogni documento sono disponibili per la query anche tutte le versioni precedenti a seconda della profondità della cache che è stata configurata. Per ogni documento, oltre alla versione originale, viene memorizzata anche una rappresentazione XML interna generata dal modulo di rendering, tale rappresentazione consente di mostrare via Web documenti in origine in formati diversi dall’HTML semplicemente applicando un opportuno foglio di stile. Tale rappresentazione e’ anche quella utilizzata dai Plug-In del renderer (es. Modulo di classificazione). Il modulo di query supporta query con combinazione di parole chiave e operatori booleani standard (AND, OR, NOT, NEAR). Il linguaggio di query prevede che siano specificate con sintassi consistente anche classi di documenti, attributi generici valorizzati sia in maniera assoluta che parametrizzata e più in generale qualunque informazione estratta dal modulo di rendering. Per quanto riguarda esigenze applicative tutte le funzionalità della piattaforma sono disponibili disponibili attraverso interfaccia REST, XML-RPC o API SOAP. 4.4 Le attività richieste Le attività richieste per l’integrazione di quanto sviluppato dal partner accademico nel progetto oggetto della fornitura sono le seguenti: • Progettazione di dettaglio del sistema di I.R. • Integrazione delle BDD Regionali Poiché si tratta di Banche Dati interne l’alimentazione della piattaforma di gestione documentale avverrà in modalità PUSH . Si tratta di implementare gli opportuni script di popolamento e gli opportuni trigger per la notifica delle variazioni. I connettori necessari al collegamento BDMS Informix e piattaforma di gestione documentale sono già stati predisposti e sono disponibili. • Definizione delle specifiche per l’accesso e per la notifica delle variazioni delle Banche Dati Documentali degli ENTI Le Banche Dati Documentali degli Enti,che sono di interesse regionale, potranno essere integrate prelevandole direttamente dalla Banca Dati Centrale (se disponibili) o accedute mediante meccanismo di pop (crawling). • Integrazione delle BDD Enti accedute mediante maccanismo di pop (crawling) . In questo caso gli Enti dovranno predisporre una interfaccia http per l’accesso alle loro BDD ed attivare un meccanismo di notifica delle variazioni ( come stabilito nel Rete degli URP – Specifiche Tecniche 16 documento di specifica) . L’attività consiste per la società aggiudicataria nella configurazione delle attività di gathering della piattaforma di gestione documentale. • Integrazione del modulo di classificazione automatica dei documenti realizzato dal partner accademico Attraverso tale modulo sarà possibile assegnare a ciascun documento indicizzato dalla piattaforma di I.R. un identificativo di classe • Realizzazione ed integrazione dell’interfaccia del tool per la gestione della classificazione e definizione del training set realizzato dal partner accademico Il tool grafico dovrà consentire ad utenti predefiniti la creazione e definizione di training set consistenti. Dovrà essere inoltre realizzata una interfaccia di amministrazione per la gestione delle classi di documenti nel sistema di I.R. • Implementazione del Web Service per Information Retrieval Realizzazione delle componenti software per la pubblicazione del servizio su un frontend web sia esso quello del portale della Rete degli Urp, sia quello di un Ente partecipante al progetto. Le Banche Dati Documentali degli Enti di interesse regionale sono le seguenti • Procedimenti amministrativi • Atti amministrativi • Schede informative Le Banche Dati Documentali di Regione Toscana sono le seguenti • Appalti - Bandi di gara emessi su tutto il territorio toscano • Atti della Giunta • Bollettino Ufficiale della Regione Toscana e DB derivate • Comunicati stampa • Leggi – Testi storici e non coordinati di leggi e regolamenti regionali • Offerte di lavoro 5 Modulo “Gestione della Modulistica” L’obiettivo perseguito è quello di fornire un nuovo modello di gestione della modulistica, ridisegnando il sistema in tutte le sue fasi dalla produzione, alla diffusione, alla conservazione dei moduli, per offrire al cittadino modalità semplici di interazione con la pubblica amministrazione. Il sottosistema dovrà garantire le funzioni di produzione, gestione e distribuzione della modulistica sia in forma cartacea che in forma elettronica. Ciascun ente potrà creare i propri moduli, distribuirli in forma cartacea o elettronica ai propri cittadini. Dovrà essere possibile definire dei moduli template , personalizzabili dagli operatori dei singoli URP. Rete degli URP – Specifiche Tecniche 17 I moduli compilati elettronicamente dovranno essere resi disponibili in formato XML per poter esser richiamati o utilizzati da procedure di back-end presenti presso le singole amministrazioni (es firma digitale, sistemi di pagamento on-line etc.) Regione Toscana dispone già di un sistema di gestione elettronica automatica della modulistica interna denominata Digimoduli, descritto in dettaglio al termine del presente documento (sezione digimoduli). Nell’ambito della presente fornitura sono richieste le seguenti attività • Progettazione di dettaglio del sistema di gestione della modulistica per la rete degli URP • Personalizzazione di Digimoduli per l'implementazione del repository della modulistica che ne consenta un utilizzo in modalità ASP . Implementazione del Web Service di gestione della modulistica • Personalizzazione di Digimoduli per la creazione dei template e la personalizzazione dei moduli da parte di operatori abilitati Deve poter essere possibile ereditare elementi di layout preimpostati e derivare altri layout a partire da essi • Personalizzazione di Digimoduli per il tracciamento dello stato dei moduli inoltrati digitalmente 6 Modulo “Tool della rete degli URP” Regione Toscana dispone di una applicazione denominata “Tool della rete degli URP” che mette a disposizione servizi di Back-Office e Front-office per gli URP. E’ stato inoltre sviluppato un modulo denominato “Portale degli URP” quale punto di accesso unificato ai servizi e agli URP della Toscana. Tale applicazione è descritta in dettaglio al termine del presente documento. Tale modulo è stato realizzato sia come pacchetto software sia come servizio ASP. Glie Enti che si sono dichiarati disponibili ad utilizzare su propri sistemi tale modulo sono circa 30. Tra i requisiti di progetto, la possibilità di utilizzare come DBMS sia Informix che Oracle, per consentire la massima libertà agli Enti che utilizzeranno tale pacchetto, di impiegare il DBMS che più si adatta alle loro esigenze. Per i servizi di Back-office e Front-Office si ritiene necessario dover effettuare una attività di manutenzione evolutiva che tenga conto delle esigenze manifestate dagli enti sperimentatori dell’attuale procedura . 7 Modulo “Portale della rete degliUrp” I servizi di base sviluppati nel corso del progetto dovranno essere integrati nel portale precedentemente sviluppato . Si dovranno prevedere dunque le seguenti attività : • Progettazione di dettaglio del logica applicativa realizzati nei moduli • per l’utilizzo dei servizi di base “Information Retrieval”, Rete degli URP – Specifiche Tecniche 18 • • “Gestione della Modulistica” • “Tool rete degli URP” Implementazione della logica applicativa Il modulo dovrà operare sui dati acquisiti mediante cooperazione applicativa e terrà conto di quanto sviluppato nel precedente progetto. 8 Gestione degli utenti e profilazione L’accesso differenziato alle varie funzionalità implementate nel sistema complessivo dovrà avvenire per profili. Dovrà quindi essere prevista una componente che consenta : • La definizione degli utenti ( a partire da dati identificativi, inclusi quelli provenienti da certificati digitali) • La definizione dei profili • L’associazioneprofilo-utente Per lo sviluppo di tali funzionalità dovranno essere utilizzate le componenti software messe a disposizione da Regione Toscana, secondo le specifiche del “sistema di gestione dei profili” descritte in allegato 2. 9 Documentazione Oltre alla documentazione di progetto come richiesto nella sezione seconda del Capitolato Tecnico si richiede la fornitura della seguente documentazione specifica : • Manuale operativo per l’utilizzo dei servizi diBack-Office • Manuale per l’installazione, configurazione, risoluzione di errori frequenti ad uso degli amministratori di sistema degli Enti presso i quali verrà installato il “Tool della rete degli URP” • Manuale per l’installazione, configurazione, risoluzione di errori frequenti del proxy applicativo 10 Banche dati documentali di interesse regionale BURT (94.498 record) Appalti – Bandi di gara emessi su tutto il territorio toscano Atti della Giunta (59.572 record) http://www.regione.toscana.it/ius/ns-attinew/?MIval=pag0 Rete degli URP – Specifiche Tecniche 19 Comunicati stampa (11.012 record) http://www.rete.toscana.it/bd/com_st.htm Leggi (2509 record) http://www.regione.toscana.it/ius/ns-leggi/?MIval=pagina_0 testi coordinati http://www.consiglio.regione.toscana.it/lpbin22/lpext.dll?f=templates&fn=main-h.htm Offerte di lavoro (65217 record) http://www.rete.toscana.it/sett/lavoro/offertelavoro/offerte_stampa/ns_offerte.htm Thesaurus (7.833 record) http://www.regione.toscana.it/ius/ns-thesaurus/?MIval=main Rete degli URP – Specifiche Tecniche 20