SEZIONE QUARTA Specifiche Tecniche Lotto 1 Rete degli URP

Transcript

SEZIONE QUARTA Specifiche Tecniche Lotto 1 Rete degli URP
SEZIONE QUARTA
Specifiche Tecniche
Lotto 1
Rete degli URP
Premessa.............................................................................................................................3
1
Obiettivi.........................................................................................................................3
2
L’architettura del sistema..............................................................................................5
2.1 Contesto tecnologico.................................................................................................5
2.2 Componenti del sistema............................................................................................5
2.3 Rete Urp....................................................................................................................6
3 Modulo per l’integrazione del sistema nella infrastruttura di cooperazione applicativa
CART ...................................................................................................................................7
3.1 Il Proxy applicativo della infrastruttura CART ............................................................7
3.1.1 Modulo Monitoraggio .........................................................................................8
3.1.2 Livello applicativo ...............................................................................................9
3.2 La componente centrale per la cooperazione applicativa .........................................9
3.2.1 Modulo Monitoraggio .........................................................................................9
4
Modulo “Information Retrieval”.....................................................................................9
4.1 I Servizi .....................................................................................................................9
4.2 Requisiti ..................................................................................................................10
4.3 Sistema di ricerca integrato.....................................................................................12
4.3.1 La piattaforma di gestione documentale ..........................................................14
4.4 Le attività richieste ..................................................................................................16
5
Modulo “Gestione della Modulistica”...........................................................................17
6
Modulo “Tool della rete degli URP”.............................................................................18
7
Modulo “Portale della rete degli Urp”..........................................................................18
8
Gestione degli utenti e profilazione .............................................................................19
9
Documentazione.........................................................................................................19
10 Banche dati documentali di interesse regionale .........................................................19
Premessa
Le procedure “Tool della Rete degli U.R.P.” eDigimoduli”,
“
così come ad oggi realizzate,
sono descritte nel documento “Allegato alle specifiche tecniche Lotto 1”.
1 Obiettivi
Il presente documento descrive il contesto di riferimento e le specifiche per la
realizzazione di un insieme di sistemi software volti a fornire ad Amministrazioni Locali ed
Enti della Regione Toscana, aderenti ed interconnesse alla Rete Telematica Regionale
Toscana (RTRT) , servizi dedicati direttamente ai cittadini ed erogati dagli URP.
L’obiettivo primario del progetto è la realizzazione di un front-end di guida a tutte le attività
afferenti ai cosiddetti “Eventi della vita” che vedono il cittadino e/o l’impresa interagire con
la P.A. Il progetto vuole pertanto fornire uno strumento evoluto di supporto alle tradizionali
funzioni degli URP quali:
v Rispondere a tutte le domande sulle strutture e i servizi di ciascun ente
Ø Quali sono i tipi di servizi e prestazioni dell’ente
Ø Quale struttura/ente eroga un servizio
Ø Dove sono localizzate le strutture e come contattarle
v Come ottenere una data prestazione
Ø Istruzioni dettagliate per l’esecuzione di ciascuna attività/sotto attività
Ø Fornitura della modulistica sotto forma di moduli cartacei o elettronici con possibilità
di apposizione di firma digitale
v Accesso alle informazioni
Ø Documentazione informativa di aiuto al cittadino che deve effettuare un’attività o
che debba approfondire un tema
Ø Accesso strutturato alle basi dati gestite da Enti Regionali o rese disponibili da
Regione Toscana
L’accesso del cittadino ai servizi oggetto del progetto potrà avvenire da più “porte” di
accesso :
v direttamente dal front-end dell’Ente di interesse per il cittadino
v dal front-end unificato ( di seguito indicato con il termine “Portale rete degli Urp”) ,
strumento per l’accesso ai servizi ed alle informazioni a carattere generale, nonché per
l’accesso agli URP locali
v dal front-end di uno degli Enti della rete e utilizzando l’opportuno servizio informativo
per l’individuazione del front-end dell’Ente di interesse
Si vuol inoltre sottolineare la specificità del progetto nei confronti delle esigenze della
Pubblica Amministrazione, in quanto dovranno essere tenuti nella dovuta considerazione i
seguenti aspetti:
Rete degli URP – Specifiche Tecniche
3
v Utilizzo di standard aperti. I protocolli e i formati utilizzati sono destinati a permanere
nel tempo e quindi,a questo proposito, verranno tenute in rigida considerazione le
indicazioni AIPA.
v Modello di deployment flessibile. Tutte i componenti software verranno realizzati
secondo un modello di sviluppo che ne consentirà il deployment sia come pacchetto
software che come servizio ASP. Con quest’ultimo modello di distribuzione, Regione
Toscana sarà in grado di fornire applicazioni ad altissimo valore aggiunto anche ad
altre amministrazioni.
v Conformità col modello di Publish & Subscribe 1 per la cooperazione applicativa.
Il modello tecnologico di riferimento è quello che è già stato adottato da Regione
Toscana in tutti i progetti, compresi quelli già in corso di realizzazione e soddisfa tutti i
requisiti imposti dall’AIPA.
v Struttura applicativa secondo il modello del Web Service. Consente di sviluppare
applicazioni immediatamente utilizzabili secondo il modello ASP.
Il sistema dovrà essere sviluppato in conformità a quanto specificato negli standard di
Regione Toscana descritti all’ allegato 2 al Capitolato Speciale d’appalto .
I moduli oggetto di descrizione di dettaglio nel seguito del presente documento sono:
v Modulo per l’integrazione del sistema nella infrastruttura di cooperazione applicativa
CART
v Modulo “Information Retrieval”
v Modulo “Gestione della Modulistica”
v Modulo “Tool della rete degli URP”
v Modulo “ Portale rete degli URP”
v Modulo per la gestione degli utenti e profilazione
Rete degli URP – Specifiche Tecniche
4
2L’architettura del sistema
2.1
Contesto tecnologico
Il sistema oggetto del progetto è organizzato secondo il seguente schema a blocchi
Nodo 1
Portale URP
Servizi
Rete Urp
Tool Rete
degli URP
IR Web
Module
GM Web
Module
NAL
DB
Servizi di base
NAL
CRIC
Nodo n
DB
Centrale
Information
Retrieval
Gestione
modulistica
Sottosistemi preesistenti
NAL
Tool Rete
degli URP
Doc. Management system
Gathering System
Ente x
DB
2.2
Componenti del sistema
Il sistema è costituito dai seguenti componenti
•
Doc. Management system. Piattaforma per la gestione documentale con funzionalità
base di Information Retrieval e capacità di supporto di grandi quantità di documenti.
•
Sistema di gathering multisorgente per consentire l’alimentazione anche da sorgenti
eterogenee senza la necessità di interventi di integrazione spinta. Si tratta del sistema
adottato dai moderni motori di ricerca per Internet che attraverso agenti provvedono ad
Rete degli URP – Specifiche Tecniche
5
indicizzare informazioni disposte su rete geografica (il Web) senza che vengano
effettuati interventi di integrazione sulle applicazioni che pubblicano tali informazioni.
•
Sottosistemi preesistenti in uso quali sistemi di firma elettronica che offrano servizi
telematici di base .
•
DB. Database di informazioni relativo alle applicazioni dedicate all’URP che vengono
erogate da Regione Toscana (o altro Ente) come servizio Web. I dati contenuti in
questo DB vengono integrati e messi a disposizione nel front-end di information
retrieval attraverso un’attività periodica dicrawling .
Quindi abbiamo dei servizi di base :
•
Information Retrieval. Sistema di Information Retrieval e relativa interfaccia di tipo Web
Service. L’interfaccia di questo servizio può essere utilizzata direttamente da terzi
oppure attraverso il corrispondente modulo Web.
•
Gestione modulistica. Sistema di gestione della modulistica e relativa interfaccia di tipo
Web Service. Anche in questo caso l’interfaccia può essere usata direttamente da terzi
oppure attraverso il corrispondente modulo Web.
Le componenti di applicative e di presentazione :
•
Tool Rete degli URP. Si tratta delle applicazioni di carattere gestionale che verranno
fornite da Regione Toscana. Poiché lo sviluppo di tale strumento è già in stato
avanzato, si opta per mantenerli inalterati e spostare la loro integrazione a livello di
back-end (DB).
•
IR Web Module. Componente di front-end del sistema di Information Retrieval da
integrare nel portale degli URP.
•
GM Web Module. Componente di front-end del sistema di gestione modulistica da
integrare nel portale URP.
•
Altri servizi esistenti. Altri servizi eventualmente già disponibili erogati dal portale.
2.3
Rete Urp
L’integrazione tra URP (rete degli URP) avverrà mediante un modello di interoperabilità
congruo all’infrastruttura di Cooperazione Applicativa della Regione Toscana (Allegato 2)
I singoli URP potranno operare in alternativa:
a) Utilizzando il sistema reso disponibile dalla Regione Toscana in modalità ASP
b) Installando presso la propria sede le applicazioni sviluppate nell’ambito del progetto
per quanto concerne le funzionalità di back-office (Tool Rete degli URP) e/o le
funzionalità di IR
c) Fornendo a Regione Toscana le opportune interfacce per l’alimentazione delle banche
dati documentali (gathering) e attivando il sistema di cooperazione applicativa per le
banche dati non documentali.
La base dati non documentale presente presso la Regione Toscana conterrà, comunque,
la totalità delle informazioni relative al complesso degli URP con una struttura identica a
quelle operanti presso i singoli URP (evidentemente per le applicazioni sviluppate
all’interno del progetto).
Riferendoci ai casi su indicati avremo:
a) Database operativo ed aggiornato tramite accessi controllati dagli operatori periferici.
Rete degli URP – Specifiche Tecniche
6
b) L’aggiornamento delle basi dati avverrà mediante opportuni software come previsto
dall’infrastruttura di Cooperazione Applicativa della Regione Toscana (allegato 2) . A
cadenza periodica i sistemi periferici alimenteranno il sistema centrale. Le BD hanno la
stessa struttura, i dati sono omogenei. L’interfaccia tra questo particolare sistema
informativo locale , oggetto della presente fornitura, e il Proxy applicativo sarà oggetto
della presente fornitura.
c) L’aggiornamento delle basi dati avverrà mediante opportuni software come previsto
dall’infrastruttura di Cooperazione Applicativa della Regione Toscana (allegato 2) ossia
mediante interfacciamento del Sistema Informativo Locale con il Proxy Applicativo .
I servizi di base saranno accessibili agli enti sia mediante l’opportuno modulo Web
sviluppato all’interno del portale , sia mediante una interfaccia di tipo Web Service .
Questo consentirà agli Enti di utilizzare detti servizi all’interno dei loro portali o all’interno
dei propri siti web.
Gli Enti partecipanti al progetto sono 85. Gli Enti che intendono installare presso la propria
sede le applicazioni sviluppate nell’ambito del progetto per quanto concerne le funzionalità
di back-office (Tool Rete degli URP) e/o le funzionalità di IR sono 30. I restanti
parteciperanno in modalità ASP.
Occorre tenere presente che tali dati potranno subire nel corso del progetto variazioni.
Regione Toscana si riserva pertanto di comunicare in sede di piano di lavoro, da redigere
ed approvare tra le parti, l’elenco esatto degli Enti partecipanti e relativa modalità di
partecipazione.
3 Modulo per l’integrazione del sistema nella infrastruttura di
cooperazione applicativa CART
Come abbiamo indicato nel precedente paragrafo le modalità di partecipazione degli Enti
al progetto possono essere diverse.
In particolare ci possono essere Enti che hanno già attivi dei sistemi informativi per la
gestione delle attività degli URP in totale o parziale sovrapposizione funzionale al “Tool
rete degli Urp”.
Il progetto si pone dunque anche l’obiettivo diconsentire la condivisione delle informazioni
e l’automazione dei processi di cooperazione senza interferire sulle modalità operative
con cui le Amministrazioni agiscono per il particolare dominio applicativo. A tale scopo
verrà utilizzata l’infrastruttura di Cooperazione applicativa di Regione Toscana (CART)[#1]
per l’aggiornamento delle BD alfanumeriche e le funzioni di gathering del sistema di
Information Retrieval per l’integrazione delle BD documentali.
3.1
Il Proxy applicativo della infrastruttura CART
La infrastruttura CART si compone di due macrocomponenti principali, il Centro
Regionale per l’Interoperabilità e la Cooperazione Applicativa (CRIC) ed i Nodi Applicativi
Locali (NAL). I NAL sono appendici del CART all’interno delle Amministrazioni Locali / Enti
aderenti ed interconnesse alla RTRT.
I NAL sono progettati in modo da potersi interfacciare con relativa semplicità e flessibilità
ad una molteplicità di Sistemi Informativi Locali (SIL) caratterizzati ciascuno da proprie
architetture hw, sw di base e middleware, sistemi di comunicazione e applicazioni.
Rete degli URP – Specifiche Tecniche
7
Varie applicazioni che richiedono cooperazione applicativa / interoperabilità tra
amministrazioni locali / enti aderenti possono essere state implementate nei SIL
corrispondenti con livelli di funzionalità differenziate.
L’infrastruttura CART prevede sui NAL componenti Proxy per consentire ai sistemi
applicativi degli enti/amministrazioni locali di interoperare sulla infrastruttura di
cooperazione applicativa, in accordo alle norme.
A tal fine il sistema architetturale prevede a livello generale che i Proxy Applicativi abbiano
varie modalità di interazione con i SIL sia dal punto di vista delle comunicazioni che da
quello, meno prevedibile e standardizzabile, delle modalità di rappresentazione dei
contenuti.
Il compito del proxy applicativo per l’interoperabilità è quello di fornire i necessari adattatori
fra il livello applicativo del Sistema Informativo Locale, rappresentato dalle varie soluzioni
di back-office URP delle Amministrazioni locali / Enti, ed il sistema di interoperabilità della
infrastruttura di cooperazione applicativa della Regione Toscana assolvendo dunque ai
compiti propri di un ingresso verso un sistema omogeneo di trattamento dei dati
attraverso l’uso di interfacce applicative basate su di un opportuno insieme di regole di
implementazione.
Tale omogeneità si basa sulla scelta del trasporto delle informazioni per mezzo del
sistema di messaggistica Publish & Subscribe, verso il quale tale componente ha il
compito di adattare le informazioni provenienti dal livello applicativo.
Il proxy di interoperabilità è residente sul NAL è costituito da tre diversi strati applicativi:
•
modulo per l'interoperabilità verso l'agente locale (interfaccia applicativa verso il lato
dell'infrastruttura di cooperazione applicativa)
•
modulo interno per il trattamento delle informazioni
•
modulo per l'interfacciamento applicativo verso i sistemi informativi locali
Ciascuno di questi componenti dovrà essere in grado di svolgere le seguenti funzioni :
•
trasferimento delle informazioni necessarie alla composizione/scomposizione dei
vari tipi di messaggi oggetto dell’interoperabilità fra i livelli degli strati applicativi;
•
conversione delle suddette informazioni dal loro formato originale al meta-formato
usato dalla logica applicativa del proxy e viceversa;
•
conversione delle informazioni sullo stato dei messaggi ottenute dalla logica
applicativa nel formato adatto per l’applicazione esterna;
Il modulo interno per il trattamento delle informazioni è delegato ad implementare la logica
applicativa vera e propria, comune a tutti i tipi di interfacce definite verso l’esterno.
L’elenco complessivo dei compiti di queste componenti sarà oggetto di progettazione
Ai tre moduli su indicati si deve aggiungere
•
Modulo per il monitoraggio
3.1.1 Modulo Monitoraggio
Svolge il compito di monitoraggio applicativo sul proxy stesso e rende disponibili, secondo
un protocollo da concordare in conformità al sistema centrale di monitoraggio, le
informazioni di interesse quali : numero degli aggiornamenti inviati, numero di errori etc.
Rete degli URP – Specifiche Tecniche
8
3.1.2 Livello applicativo
Il livello applicativo nel presente progetto è rappresentato dall’alimentazione delle BD
alfanumeriche delle Amministrazioni, di interesse per la Rete degli URP :
•
Organigramma (uffici strutture persone)
•
Procedimenti amministrativi
•
Schede informative
•
Atti amministrativi
•
InfoUrp
3.2
La componente centrale per la cooperazione applicativa
Avrà il compito di alimentare la Banca Dati Centrale su cui andranno ad insistere la
componente portale per le Banche dati non documentali, e la funzione di alimentazione del
sistema di Information Retrieval per le banche dati documentali.
Anche qui avremo una componente per il monitoraggio
3.2.1 Modulo Monitoraggio
Svolge il compito di monitoraggio applicativo della rete dei proxy applicativi dedicati alla
Rete degli URP . Rende disponibili, secondo un protocollo da concordare in conformità al
sistema centrale di monitoraggio, le informazioni di interesse quali : numero degli
aggiornamenti inviati da ciascun proxy , numero di errori etc.
Dovrà essere prevista una funzione che testi e verifichi il corretto funzionamento delle
componenti centrali del sistema. Tale funzione verrà utilizzata dal sistema di monitoraggio
presente nella infrastruttura di Regione Toscana.
4 Modulo “Information Retrieval”
4.1
I Servizi
I servizi che si intendono realizzare sono i seguenti:
•
2
Fornitura di documentazione informativa. L’implementazione di un motore di ricerca
tematico comporta l’utilizzo di tecnologie specifiche a cui i tradizionali database non
possono fare fronte a causa della grande quantità di documenti che si devono gestire.
Per questa attività verrà impiegata una tecnologia specifica per attività di search che
supporti le funzionalità di crawling2, indicizzazione dinamica e interrogazione sia
per parole chiave che per tipologia e contenuto dei documenti. Per questo verrà
impiegata una tecnologia di classificazione automatica di contenuti al fine di poter
opportunamente collocare i documenti che vengono indicizzati nei contesti delle varie
Estrazione automatica di informazioni da siti web, databases, archivi informatizzati
Rete degli URP – Specifiche Tecniche
9
attività (es. fornire accesso a tutte le informazioni che riguardano argomenti correlati
all’espatrio all’interno dell’attività per il rinnovo del passaporto). Il motore di ricerca
inoltre faciliterà la navigazione del corpus documentale inserendo automaticamente nei
documenti i riferimenti ipertestuali ai documenti correlati. Questa modalità renderà più
fruibile la documentazione contenuta nelle banche dati della P.A.
•
Accesso strutturato alla documentazione offerta da Regione Toscana e dagli Enti
aderenti. Sotto il profilo strettamente tecnologico questa attività si basa sulla stessa
piattaforma di Information Retrieval citata nel punto precedente ma necessita che siano
messi a punto una serie di sofisticati strumenti per la classificazione automatica di
documenti che vadano oltre la semplice presenza di parole chiave nel testo. In questo
senso verranno impiegate delle tecnologie di classificazione di documenti basate su
tecniche di Intelligenza Artificiale e sviluppate dal partner accademico di questo
progetto, leader in ambito internazionale per questo tipo di applicazioni. Regione
Toscana ha già provveduto ad esplorare con tale partner, nell’ambito di convenzioni di
ricerca, la possibilità di implementare su scala industriale alcune delle soluzioni già
note in ambito accademico.
4.2
Requisiti
ll progetto richiede lo sviluppo di servizi basati su una piattaforma di gestione documentale
in grado di soddisfare i seguenti requisiti:
•
•
•
Scalabilità. Lo scopo del progetto è quello di realizzare un sistema in grado di servire
sia una singola amministrazione che un gruppo attraverso la modalità ASP di
erogazione del servizio. Per questi motivi il sistema di gestione documentale deve
avere un'architettura che consenta una notevole scalabilità orizzontale. Riguardo a
questo aspetto sono richieste le seguenti caratteristiche:
•
Architettura basata su nodi di elaborazione che possono essere aggiunti in funzione
delle richieste di carico.
•
Possibilità di bilanciamento asincrono del carico tra le attività di crawling (prelievo
delle informazioni) ed elaborazione.
Prestazioni. Il trattamento di documenti in formato non strutturato comporta che il
sistema debba essere estremamente efficace sia dal punto di vista della quantità di
informazioni che è in grado di trattare che da quello delle prestazioni in fase di
indicizzazione e ricerca. Si ritengono necessarie le seguenti caratteristiche per ogni
singolo nodo:
•
Inserimento: 5 documenti/sec.
•
Query: 10 query/secondo
•
Storage: 1 milione di documenti
Gathering. Il progetto prevede che si possa accedere a sorgenti di informazioni sia
locali che esterne in modalità sia push che pop. Il sistema deve disporre di un sistema
di crawling con le seguenti caratteristiche:
•
Supporto protocolli HTTP, IIOP, NNTP, RSS, IMAP, ODBC
•
Modalità di Web crawling per singoli siti o standard in ampiezza
Rete degli URP – Specifiche Tecniche
10
•
•
•
Possibilità di sviluppare modalità di crawling specifiche (es. focused crawling, filtri
per l’accesso a database specifici).
Indicizzazione. Si tratta di una caratteristica centrale del sistema per cui sono richieste
le seguenti caratteristiche:
•
Indicizzazione completamente
periodicamente gli indici.
•
Indicizzazione sia di parole chiave che di attributi generici.
•
Possibilità di inserire informazioni di classificazione all'interno dell'indice.
•
Possibilità di indicizzare con pesi diversi porzioni specifiche di documenti.
dinamica.
Nessuna
necessità
di
ricostruire
Ricerca. Il sistema deve prevedere modalità di ricerca con criteri a livelli diversi e in
particolare:
•
Possibilità di specificare interrogazioni formate da parole chiave, categorie, attributi
generici ed operatori booleani standard AND, OR, NOT e specifici come NEAR
•
Applicazione di meccanismi di selezione delle risposte flessibili basati sia su
considerazioni topologiche del corpus documentale, di layout dei singoli documenti
e di semantica attribuita da opportuni moduli di preprocessing.
•
Ricerca su versioni multiple storicizzate dello stesso documento.
•
Capacità di inserire moduli per la creazione automatica di collegamenti ipertestuali
fra documenti
•
Integrazione. Il sistema deve potersi integrare sia con moduli software preesistenti sia
forniti dagli aderenti al progetto che da Regione Toscana. Si richiede quindi che le
funzionalità della piattaforma siano accessibili attraverso le seguenti tipologie di API:
SOAP (.NET conforme), REST o XML-RPC. Si richiede inoltre che siano nativamente
previsti meccanismi per creare federazioni di piattaforme secondo il principio del Peerto-Peer.
•
Storage. Uno degli scopi del progetto è quello di creare un meccanismo di caching dei
contenuti affinché i documenti possano essere recuperati velocemente senza dover
accedere, e quindi sovraccaricare, il repository dove sono originariamente memorizzati.
Occorre che siano presenti le seguenti caratteristiche:
•
•
Memorizzazione del documento nel suo formato originale.
•
Memorizzazione di una sua rappresentazione XML in cui siano codificate tutte le
informazioni si di contenuto che di layout.
•
Storicizzazione di versioni multiple dello stesso documento.
•
Formato di memorizzazione criptato non accessibile da file system.
•
Supporto permessi utente.
Formati documentali e lingue Il sistema deve essere multilingua e compatibile col
formato di codifica UTF-8. Si richiede che siano supporti in tutte le fasi i seguenti
formati documentali: HTML, XML, DOC, RTF, PDF, TXT.
Rete degli URP – Specifiche Tecniche
11
4.3
Sistema di ricerca integrato
Il sistema di ricerca integrato per banche dati contenenti informazioni sotto forma di
documenti testuali è stato realizzato in forma prototipale nell’ambito di una convenzione di
ricerca fra la Regione Toscana e un partner accademico. Il sistema è basato su una
piattaforma di information retrieval ed è in grado di indicizzare sorgenti locali o remote
attraverso un’attività denominata genericamente “G athering”.
L’indice permette interrogazioni per parole chiave e categoria del documento, dove la
categoria non viene assegnata manualmente ma evinta in maniera automatica dal
contenuto del documento stesso. L’interfaccia di ricerca prevede l’uso di filtri per categoria
e del thesaurus disponibile presso Regione Toscana. I servizi del motore di ricerca sono
disponibili tramite un’interfaccia di tipo WebService.
La scelta della piattaforma di information retrieval è stata effettuata sulla base delle
prestazioni in termini di tempi di query e velocità di indicizzazione strutturalmente
impossibili da raggiungere con l’architettura di un database relazionale. Di fondamentale
importanza il supporto nativo all’integrazione di plug-in per implementare tecniche
avanzate di analisi documentale e la gestione a livello di indice di “feature” generiche
estratte dal documento. Il modulo di classificazione automatica del testo e’ stato infatti
implementato con questa modalità cosi’ come l’integrazione del thesaurus. Lo schema
funzionale della piattaforma è mostrato nella figura seguente.
Set di
REGEX
Gatherer
Servizi di
ricerca
hyper
linker
Renderer
indexer
Query
engine
Connettori ai
Database
thesaurus
Database da
indicizzare
Set di
CLASSI
Text
classifier
Plug-in
Il Gatherer è il modulo della piattaforma di information retrieval che si occupa di
recuperare le informazioni da indicizzare dalle sorgenti. Il gatherer permette di accedere a
diversi tipi di sorgenti dati una volta che sia stato definito un opportuno connettore. Di base
il gatherer offre un comportamento tipo Web spider che recupera documenti seguendo i
link Web in essi contenuti utilizzando il protocollo HTTP. E’ possibile indicizzare
direttamente i contenuti di database definendo un opportuno Plug-In utilizzando lo schema
del database (devono essere specificate le tabelle e le colonne da recuperare).
Il Renderer provvede all’estrazione del testo e di altre informazioni dai documenti
recuperati dal gatherer e alla costruzione di una rappresentazione XML delle informazioni
adatta alla indicizzazione. Tale rappresentazione interna consente di gestire in maniera
uniforme documenti in vari formati. Nel progetto vengono gestiti documenti in formato
Rete degli URP – Specifiche Tecniche
12
HTML, DOC, RTF, PDF, e TXT. Il renderer attraverso opportuni plug-in aggiunge agli
oggetti indicizzati delle metainformazioni. In particolare, il classificatore di testo,
realizzato secondo questa filosofia, permette di aggiungere un vettore di valori che
indicano il grado di appartenenza del documento rispetto ad un insieme di classi
predefinito. Tali informazioni vengono poi gestite nativamente a livello di indice al fine di
poter garantire adeguate prestazioni in fase di query. Il plug-in hyperlinker provvede ad
aggiunge a stringhe interne al documento hyperlink verso documenti correlati. Nel
prototipo l’hyperlinker utilizza un insieme di espressioni regolari (REGEX) costruite
manualmente per individuare le citazioni legislative rendendo possibile la navigazione fra
documenti che citano le stesse fonti o, se possibile, i riferimenti stessi.
L’Indexer provvede a gestire l’indice per le ricerche full-text, classe di appartenenza,
sinonimi e riferimenti sia entranti che uscenti. In particolare permette di gestire il filtraggio
dei risultati di una query rispetto alla rilevanza per una o più categorie. L’indice permette
anche di gestire diversi pesi per i vari criteri di ricerca.
Il query engine fornisce un’interfaccia per interrogare l’indice del sistema, fornendo la
possibilità di effettuare ricerche tramite parole chiave (connesse con operatori logici AND e
OR, NOT e NEAR) e di applicare filtri di rilevanza basati sulla categoria o categorie
selezionate. L’interfaccia di ricerca è stata anche integrata col thesaurus di Regione
Toscana per permettere una navigazione sui risultati utilizzando le categorie, i termini
correlati, i termini più specifici o ampi per espandere l’interrogazione.
Il modulo di classificazione automatica di testo riceve in ingresso la sequenza di parole
del documento da categorizzare e produce in uscita un numero reale per ogni categoria
prevista nel sistema. Il valore rappresenta una valutazione dell’attinenza del documento
rispetto ad una data categoria. Il classificatore utilizza un dizionario delle parole del corpus
documentale estratto da un insieme di documenti di riferimento ed un insieme di regole
per filtrare le parole meno informative. L’insieme dei classificatori di testo (uno per ogni
categoria) viene addestrato utilizzando un insieme di documenti di esempio etichettati da
un esperto che indica la categoria di appartenenza. Il modulo di classificazione realizzato
nel prototipo prevede la possibilità di utilizzare un insieme di categorie non organizzate
gerarchicamente e scelte fra quelle del primo livello della categorizzazione per argomenti
prevista da Regione Toscana (Agricoltura, Ambiente e territorio, attività e beni culturali,
attività economico-produttive, lavoro e formazione, organizzazione e attività dell’ente,
sanità, scuola e istruzione, società e politiche sociali,tecnologia e scienza). La
classificazione non è stretta ma è fornita come grado di appartenenza, ovvero un
documento può anche essere assegnato a più di una categoria. Per l’addestramento dei
classificatori è richiesto che venga mantenuto un archivio di esempi etichettati da parte di
un esperto. Nel prototipo non è stata implementata una interfaccia specifica per la
gestione dell’insieme di addestramento, ma sono stati semplicemente collezionati dei
documenti.
E’ stato previsto di migliorare il modulo di classificazione di testo realizzando una
classificazione su una gerarchia di categorie invece che su un insieme di categorie non
strutturate (organizzazione “piatta”). Inoltre il modulo di classificazione dovrà essere
integrato con un modulo di amministrazione che permetta la necessaria flessibilità nella
definizione delle categorie. Il modulo di amministrazione dovrà permettere ad un utente
esperto in classificazione documentale di definire la gerarchia delle categorie e di
Rete degli URP – Specifiche Tecniche
13
assegnare ad ogni categoria un insieme di documenti di esempio per addestrare il
classificatore avendo al contempo sotto controllo degli indicatori di consistenza del training
set. Il modulo di amministrazione della gerarchia di classificazione dovrà avere una
interfaccia Web che permetta di:
1. aggiungere/eliminare categorie dalla gerarchia
2. definire relazioni gerarchiche fra categorie
3. assegnare/rimuovere un documento di esempio da una categoria.
L’interfaccia dovrà infine prevedere un controllo per avviare l’addestramento dei
classificatori di testo e l’integrazione delle nuove classi nell’indice del motore di ricerca. La
fase di addestramento dovrà essere il più possibile trasparente all’utente amministratore,
ovvero non dovrà richiedere conoscenza specifica sugli algoritmi di classificazione ed
addestramento utilizzati. Il sistema dovrà guidare l’utente ad effettuare le scelte corrette
per costruire dei classificatori con prestazioni soddisfacenti.
L’organizzazione dell’interfaccia di ricerca dovrà essere estesa per permettere la
navigazione nella lista dei risultati utilizzando la gerarchia delle categorie.
Evoluzione del sistema di referenziazione automatica di contenuti da quello attualmente
implementato e basato su di un archivio di REGEX. Attraverso il modulo di classificazione
documentale verranno classificati i singoli paragrafi dei documenti e associati ad essi,
tramite “livequery” liste di documenti semanticamente correlati.
4.3.1 La piattaforma di gestione documentale
L’attività di sviluppo effettuata nell’ambito della convenzione e’ stata effettuata utilizzando
piattaforma di Information Retrieval focuseek foundation .
focuseek foundation e’ una piattaforma software basata sul paradigma degli oggetti
distribuiti nata per essere scalabile orizzontalmente e per supportare modelli di
deployment flessibili per venire incontro ad esigenze di bilanciamento del carico molto
varie.
Rete degli URP – Specifiche Tecniche
14
L’architettura generale e’ mostrata nel seguente schema a blocchi:
SOAP API
Gatherer
Plug-Ins
Indexer
Renderer
Storage
Query
Plug-Ins
CORBA Bus
Il modulo di gathering supporta nativamente il crawling di siti web o di porzioni di web
con una modalità denominata Breadth First (in ampiezza). La sua struttura a plug-in
consente di implementare “adattatori” per altri tipi di sorgenti di dati, sono disponibili:
-
DBMS: accesso alle tabelle di database (compatibilà Oracle, DB/2, Informix)
-
IMAP: accede alle email contenute in cartelle IMAP di cui si possiedono i diritti di
accesso.
-
Newsgroup: indicizzazione dei gruppi di discussione disponibili su internet
attraverso un provider che mette a disposizione il servizio.
-
File System: indicizzazione di tutti i documenti presenti in directory accessibili dal
sistema siano esse remote che locali.
Il modulo di indexing di focuseek indicizza in modalità full-text qualunque documento nei
formati supportati. L'indicizzazione è di tipo dinamico sia per quanto riguarda l'aggiunta
che la rimozione di documenti. Non sono necessari tempi morti per la ricostruzione
dell'indice e nel momento in cui un documento viene inserito nell'indice esso è anche
immediatamente disponibile per la query.
L’indice gestisce non solamante parole chiave ma anche attributi generici che possono
essere specificati in sede di query utlizzando l’usuale linguaggio di interrogazione basato
su operatori booleani.
Supporta nativamente informazioni di classificazione documentale e la memorizzazazione
di hyperlink virtuali sia basati sull’interpretazione di espressioni regolari che sull’output di
un modulo di classificazione automatica.
Rete degli URP – Specifiche Tecniche
15
Il modulo di rendering integra la tecnologia di rendering focuseek che consente di dare
rilevanza al contenuto di un documento e associare la generazione di metainformazioni in
funzione della sua impostazione tipografica. Anche in questo caso e’ presente
un’architettura a Plug-In e quindi e’ possibile integrare facilmente all’interno di questo
componente moduli di analisi documentale Il modulo di rendering è strettamente
accoppiato a quello di indexing per tutte le informazioni de esso estratte e si hanno in fase
di retrieval le medesime prestazioni del full-text.
La piattaforma focuseek dispone di una cache multilivello (modulo di storage) dei
documenti nel loro formato originale ovvero per ogni documento sono disponibili per la
query anche tutte le versioni precedenti a seconda della profondità della cache che è stata
configurata. Per ogni documento, oltre alla versione originale, viene memorizzata anche
una rappresentazione XML interna generata dal modulo di rendering, tale
rappresentazione consente di mostrare via Web documenti in origine in formati diversi
dall’HTML semplicemente applicando un opportuno foglio di stile. Tale rappresentazione e’
anche quella utilizzata dai Plug-In del renderer (es. Modulo di classificazione).
Il modulo di query supporta query con combinazione di parole chiave e operatori
booleani standard (AND, OR, NOT, NEAR). Il linguaggio di query prevede che siano
specificate con sintassi consistente anche classi di documenti, attributi generici valorizzati
sia in maniera assoluta che parametrizzata e più in generale qualunque informazione
estratta dal modulo di rendering.
Per quanto riguarda esigenze applicative tutte le funzionalità della piattaforma sono
disponibili disponibili attraverso interfaccia REST, XML-RPC o API SOAP.
4.4
Le attività richieste
Le attività richieste per l’integrazione di quanto sviluppato dal partner accademico nel
progetto oggetto della fornitura sono le seguenti:
•
Progettazione di dettaglio del sistema di I.R.
•
Integrazione delle BDD Regionali
Poiché si tratta di Banche Dati interne l’alimentazione della piattaforma di gestione
documentale avverrà in modalità PUSH . Si tratta di implementare gli opportuni script di
popolamento e gli opportuni trigger per la notifica delle variazioni. I connettori
necessari al collegamento BDMS Informix e piattaforma di gestione documentale sono
già stati predisposti e sono disponibili.
•
Definizione delle specifiche per l’accesso e per la notifica delle variazioni delle Banche
Dati Documentali degli ENTI
Le Banche Dati Documentali degli Enti,che sono di interesse regionale, potranno
essere integrate prelevandole direttamente dalla Banca Dati Centrale (se disponibili) o
accedute mediante meccanismo di pop (crawling).
•
Integrazione delle BDD Enti accedute mediante maccanismo di pop (crawling) . In
questo caso gli Enti dovranno predisporre una interfaccia http per l’accesso alle loro
BDD ed attivare un meccanismo di notifica delle variazioni ( come stabilito nel
Rete degli URP – Specifiche Tecniche
16
documento di specifica) . L’attività consiste per la società aggiudicataria nella
configurazione delle attività di gathering della piattaforma di gestione documentale.
•
Integrazione del modulo di classificazione automatica dei documenti realizzato dal
partner accademico
Attraverso tale modulo sarà possibile assegnare a ciascun documento indicizzato dalla
piattaforma di I.R. un identificativo di classe
•
Realizzazione ed integrazione dell’interfaccia del tool per la gestione della
classificazione e definizione del training set realizzato dal partner accademico
Il tool grafico dovrà consentire ad utenti predefiniti la creazione e definizione di training
set consistenti. Dovrà essere inoltre realizzata una interfaccia di amministrazione per
la gestione delle classi di documenti nel sistema di I.R.
•
Implementazione del Web Service per Information Retrieval
Realizzazione delle componenti software per la pubblicazione del servizio su un frontend web sia esso quello del portale della Rete degli Urp, sia quello di un Ente
partecipante al progetto.
Le Banche Dati Documentali degli Enti di interesse regionale sono le seguenti
•
Procedimenti amministrativi
•
Atti amministrativi
•
Schede informative
Le Banche Dati Documentali di Regione Toscana sono le seguenti
•
Appalti - Bandi di gara emessi su tutto il territorio toscano
•
Atti della Giunta
•
Bollettino Ufficiale della Regione Toscana e DB derivate
•
Comunicati stampa
•
Leggi – Testi storici e non coordinati di leggi e regolamenti regionali
•
Offerte di lavoro
5 Modulo “Gestione della Modulistica”
L’obiettivo perseguito è quello di fornire un nuovo modello di gestione della modulistica,
ridisegnando il sistema in tutte le sue fasi dalla produzione, alla diffusione, alla
conservazione dei moduli, per offrire al cittadino modalità semplici di interazione con la
pubblica amministrazione.
Il sottosistema dovrà garantire le funzioni di produzione, gestione e distribuzione della
modulistica sia in forma cartacea che in forma elettronica. Ciascun ente potrà creare i
propri moduli, distribuirli in forma cartacea o elettronica ai propri cittadini. Dovrà essere
possibile definire dei moduli template , personalizzabili dagli operatori dei singoli URP.
Rete degli URP – Specifiche Tecniche
17
I moduli compilati elettronicamente dovranno essere resi disponibili in formato XML per
poter esser richiamati o utilizzati da procedure di back-end presenti presso le singole
amministrazioni (es firma digitale, sistemi di pagamento on-line etc.)
Regione Toscana dispone già di un sistema di gestione elettronica automatica della
modulistica interna denominata Digimoduli, descritto in dettaglio al termine del presente
documento (sezione digimoduli). Nell’ambito della presente fornitura sono richieste le
seguenti attività
•
Progettazione di dettaglio del sistema di gestione della modulistica per la rete degli
URP
•
Personalizzazione di Digimoduli per l'implementazione del repository della modulistica
che ne consenta un utilizzo in modalità ASP . Implementazione del Web Service di
gestione della modulistica
•
Personalizzazione di Digimoduli per la creazione dei template e la personalizzazione
dei moduli da parte di operatori abilitati
Deve poter essere possibile ereditare elementi di layout preimpostati e derivare altri
layout a partire da essi
•
Personalizzazione di Digimoduli per il tracciamento dello stato dei moduli inoltrati
digitalmente
6 Modulo “Tool della rete degli URP”
Regione Toscana dispone di una applicazione denominata “Tool della rete degli URP” che
mette a disposizione servizi di Back-Office e Front-office per gli URP. E’ stato inoltre
sviluppato un modulo denominato “Portale degli URP” quale punto di accesso unificato ai
servizi e agli URP della Toscana.
Tale applicazione è descritta in dettaglio al termine del presente documento.
Tale modulo è stato realizzato sia come pacchetto software sia come servizio ASP.
Glie Enti che si sono dichiarati disponibili ad utilizzare su propri sistemi tale modulo sono
circa 30.
Tra i requisiti di progetto, la possibilità di utilizzare come DBMS sia Informix che Oracle,
per consentire la massima libertà agli Enti che utilizzeranno tale pacchetto, di impiegare il
DBMS che più si adatta alle loro esigenze.
Per i servizi di Back-office e Front-Office si ritiene necessario dover effettuare una attività
di manutenzione evolutiva che tenga conto delle esigenze manifestate dagli enti
sperimentatori dell’attuale procedura .
7 Modulo “Portale della rete degliUrp”
I servizi di base sviluppati nel corso del progetto dovranno essere integrati nel portale
precedentemente sviluppato . Si dovranno prevedere dunque le seguenti attività :
•
Progettazione di dettaglio del logica applicativa
realizzati nei moduli
•
per l’utilizzo dei
servizi di base
“Information Retrieval”,
Rete degli URP – Specifiche Tecniche
18
•
•
“Gestione della Modulistica”
•
“Tool rete degli URP”
Implementazione della logica applicativa
Il modulo dovrà operare sui dati acquisiti mediante cooperazione applicativa e terrà conto
di quanto sviluppato nel precedente progetto.
8 Gestione degli utenti e profilazione
L’accesso differenziato alle varie funzionalità implementate nel sistema complessivo dovrà
avvenire per profili.
Dovrà quindi essere prevista una componente che consenta :
•
La definizione degli utenti ( a partire da dati identificativi, inclusi quelli provenienti da
certificati digitali)
•
La definizione dei profili
•
L’associazioneprofilo-utente
Per lo sviluppo di tali funzionalità dovranno essere utilizzate le componenti software
messe a disposizione da Regione Toscana, secondo le specifiche del “sistema di gestione
dei profili” descritte in allegato 2.
9 Documentazione
Oltre alla documentazione di progetto come richiesto nella sezione seconda del
Capitolato Tecnico si richiede la fornitura della seguente documentazione specifica :
•
Manuale operativo per l’utilizzo dei servizi diBack-Office
•
Manuale per l’installazione, configurazione, risoluzione di errori frequenti ad uso degli
amministratori di sistema degli Enti presso i quali verrà installato il “Tool della rete degli
URP”
•
Manuale per l’installazione, configurazione, risoluzione di errori frequenti del proxy
applicativo
10 Banche dati documentali di interesse regionale
BURT (94.498 record)
Appalti – Bandi di gara emessi su tutto il territorio toscano
Atti della Giunta (59.572 record)
http://www.regione.toscana.it/ius/ns-attinew/?MIval=pag0
Rete degli URP – Specifiche Tecniche
19
Comunicati stampa (11.012 record)
http://www.rete.toscana.it/bd/com_st.htm
Leggi (2509 record)
http://www.regione.toscana.it/ius/ns-leggi/?MIval=pagina_0
testi coordinati
http://www.consiglio.regione.toscana.it/lpbin22/lpext.dll?f=templates&fn=main-h.htm
Offerte di lavoro (65217 record)
http://www.rete.toscana.it/sett/lavoro/offertelavoro/offerte_stampa/ns_offerte.htm
Thesaurus (7.833 record)
http://www.regione.toscana.it/ius/ns-thesaurus/?MIval=main
Rete degli URP – Specifiche Tecniche
20