I Dati

Transcript

I Dati
Seminario
QUALITA’”
“DATI APERTI DI QUALITA
’”
Roma, 3 Dicembre 2012
QUALITA’’ DEI DATI
OPEN DATA E QUALITA
Enrico Viola ([email protected])
07/12/2012
AGENDA
• La qualità per i dati: definizione, rilevanza, specificità
• Il ciclo di vita dei dati
• La norma ISO/IEC 25012: le caratteristiche della Qualità
dei Dati
• La misura e la valutazione della qualità dei dati
• Il “valore” ed il miglioramento della qualità dei dati
• L’identificazione delle cause dei difetti dei dati
• La qualità dei dati per gli Open Data
07/12/2012
Dati e informazioni
I Dati (e le informazioni) sono come l’acqua
Tutti ne hanno bisogno
Ne siamo circondati
Ne diamo per scontata l’esistenza, la disponibilità e la
qualità
Non ci preoccupiamo di cosa accade loro dopo che li usiamo
Se c’è una “perdita” nel sistema spesso non ce ne
accorgiamo o non lo sappiamo
Quando hanno qualche problema non è facile capire il
motivo
07/12/2012
Definizioni
Qualità dei dati (proprietà)
Il grado di rispondenza dei dati ai
requisiti ad essi associati ed agli
obiettivi per i quali vengono utilizzati
Qualità dei dati (processo)
L’insieme delle attività che una
organizzazione pone in essere per
garantire la Qualità dei propri dati e
limitare i rischi della “non qualità”
07/12/2012
Focus sull’utente
Aspetti “di business”
prevalenti
Obiettivi “dinamici”
Responsabilità
Misure
Impatto su processi IT e “di
business”: es.:
• Data governance
• Sviluppo software
• Analisi dei rischi
• Gestione capitale intangibile
Impatti della qualità
qualità dei dati: esempi
Emissione cartelle esattoriali errate
Comunicazione del numero di “esodati” in Italia
Interventi realizzati per la gestione del passaggio all’anno 2000
(valutati in molti miliardi di dollari)
L’esplosione dello Space Shuttle Challenger avvenuta il 28 gennaio
1986 alcuni secondi dopo il lancio, che ha provocato la morte dei
7 astronauti a bordo (la commissione di indagine ha evidenziato
come il processo decisionale seguito dalla NASA era basato su
informazioni errate e incomplete)
Nel maggio 1999, durante la guerra in Bosnia, le forze militari USA
bombardarono per errore l’ambasciata cinese uccidendo tre
cittadini cinesi. Si ritiene che la causa sia una informazione non
aggiornata sul reale utilizzo dell’edificio.
Ogni anno più di 45 milioni di americani cambiano indirizzo
07/12/2012
Le dimensioni della DQ (un esempio dalla
letteratura)
letteratura)
Fonte : Information & Management n.40 (2002)
07/12/2012
Qualità dei Dati - il contesto
Vanno considerati quattro aspetti prevalenti:
REQUISITI di QD da
armonizare
(interni ed esterni)
COSTI “nascosti” della
“NON QUALITA’” dei
dati
QD
CICLO DI VITA
dei dati diverso da
sistemi / SW
07/12/2012
MISURA
Il progetto ISO “SQuaRE”
SQuaRE”
la Qualità dei Dati è inserita nel progetto ISO SQuaRE
(Systems and Software Quality Requirements and
Evaluation)
Quality Model Division
2501n
Quality
Requirements
Division
2503n
Quality
Management Division
2500n
Quality
Measurement Division
2502n
07/12/2012
Quality
Evaluation
Division
2504n
SQuaRE:
SQuaRE: il framework
Service
Quality Model
07/12/2012
Categorie
Caratteristiche
QD INERENTE
QD DI SISTEMA
Accuratezza
X
Aggiornamento
X
Completezza
X
Consistenza
X
Credibilità
X
Accessibilità
X
X
Comprensibilità
X
X
Conformità
X
X
Efficienza
X
X
Precisione
X
X
Riservatezza
X
X
Tracciabilità
X
X
Disponibilità
X
Portabilità
X
Ripristinabilità
X
07/12/2012
Le caratteristiche
di qualità dei dati
(ISO/IEC 25012)
Le caratteristiche di qualità dei dati
(ISO/IEC 25012)
Qualità inerente
La capacità intrinseca di un insieme di dati di soddisfare i
requisiti in un determinato contesto indipendentemente
dall’ambiente tecnologico
accuratezza: conformità ai valori reali (sintattica e semantica)
aggiornamento: conformità tempestiva ai valori reali (temporale);
frequenza
completezza: presenza dei dati necessari (occorrenze, attributi, valori)
consistenza: assenza di contraddizioni interne
credibilità: la fonte è certa ed affidabile
07/12/2012
Le caratteristiche di qualità dei dati
(ISO/IEC 25012)
Qualità di sistema:
La capacità di un insieme di dati di soddisfare i
requisiti in un determinato contesto attraverso una
specifica architettura tecnologica
disponibilità: accesso possibile (continuo o all’occorrenza)
ripristinabilità: ripristino integrità fisica e logica
portabilità: trasferimenti tra ambienti tecnologici
07/12/2012
Le caratteristiche di qualità dei dati
(ISO/IEC 25012)
Qualità inerente e di sistema:
accessibilità: dati accessibili dalla tipologia di utenti cui ci si
rivolge, anche se disabili
comprensibilità: comprensione possibile per gli utenti che
devono utilizzare i dati
conformità: a norme, regolamenti o convenzioni
efficienza: prestazioni adeguate alle risorse ed alle esigenze
precisione: livello di dettaglio dell’informazione richiesta
riservatezza: accesso autorizzato e sicuro
tracciabilità: storia dei valori, dei legami e degli accessi
07/12/2012
Il ciclo di vita dei dati
• È un processo non lineare
• È di norma più lungo di quello del
software che produce i dati stessi e
del sistema di cui i dati fanno parte
• Non viene solitamente documentato
in forma specifica
• La sua descrizione è utile alla
comprensione/gestione
delle
responsabilità ed al posizionamento
dei controlli
07/12/2012
I benefici della Qualità
Qualità dei Dati
Fonte; Batini-Scannapieco
07/12/2012
Classificazione dei costi della “non qualità”
qualità” dei dati
Fonte; Batini-Scannapieco
07/12/2012
Origine della non qualità
qualità dei dati
Fonte: www.infromation-management.com
07/12/2012
Perché
Perché valutare la qualità
qualità dei dati?
CONFORMITA’ / CERTIFICAZIONE
risponde alla domanda :
”la base dati X è conforme ai requisiti….?”
Esempio: “la base dati è conforme ai requisiti di
riservatezza (es. ISO27001, privacy)?”
Per i dati “OPEN”
”il dataset X è conforme ai requisiti?”
Esempi:
• “i dati pubblicati per i turisti sono aggiornati?”
• “L’elenco dei bandi regionali pubblicato è completo?”
07/12/2012
Perché
Perché valutare la qualità
qualità dei dati?
MITIGAZIONE DEI RISCHI
risponde alla domanda :
“quale rischio si corre usando la base dati X?”
Esempio: “che rischio corre una impresa utilizzando per una
campagna di marketing i dati acquistati da una società
esterna?”
Per i dati “OPEN”
” quale rischio si corre usando il dataset X?”
Esempio:
•
“che rischio corre la Regione Y a pubblicare dati non completi
sulle proprie strutture turistiche, ospedaliere, scolastiche, ecc e
sui relativi servizi”
07/12/2012
Perché
Perché valutare la qualità
qualità dei dati?
MATURITA’ DELL’ORGANIZZAZIONE
contribuisce a rispondere risponde alla domanda :
”l’organizzazione è strutturata per produrre i risultati attesi in
termini di qualità dell’informazione?”
Esempio: Il comune X che non vuole fruire dei servizi Equitalia è
in grado di produrre “normalmente” dati della qualità
necessaria?
Per i dati “OPEN”
”la PA X è organizzata per produrre Open Data di Qualità?”
07/12/2012
Misura della Qualità
Qualità dei Dati
Le misure sono lo strumento per formulare la valutazione
oggettiva della Qualità.
Possono essere classificate in base ad alcuni criteri, ad es.:
Oggettività:
Oggettiva (misurabile con oggettività)
Soggettiva (misurabile attraverso opinioni)
Tipologia:
Base misura definita in termini di un attributo e del metodo per
la sua valorizzazione (una misura base è funzionalmente
indipendente da altre misure e si riferisce ad un singolo attributo)
Derivata misura definita come funzione di due o più valori di
misure base.
07/12/2012
La misura della Qualità
Qualità dei Dati
La misura della Qualità dei Dati richiede un contesto adeguato, che
deriva dagli obiettivi dell’organizzazione; il contesto comprende:
La conoscenza del ciclo di vita dell’informazione (per decidere la
fase in cui va effettuata la misurazione)
le caratteristiche di qualità da misurare
Le misure da utilizzare
Processi definiti di Data Management e Data Quality Management
un metodo di valutazione applicabile agli obiettivi
dell’organizzazione
I riferimenti agli “ambiti” della misura (documenti, basi dati, ecc)
Una visione degli strumenti che consenta di associare ogni misura
al relativo strumento
approccio “sistemico” per massimizzare l’efficacia della misura ed
evitare ridondanze
07/12/2012
La misura della Qualità
Qualità dei Dati
DATA QUALITY ASSESSMENT
Visione complessiva
Consistenza
10
Conformità
9
Aggiornamento
8
7
Accessibilità
Completezza
6
5
4
Credibilità
Precisione
3
2
1
0
Tracciabilità
Accuratezza
Portabilità
Riservatezza
Performance
Disponibilità
Comprensibilità
Misure rilevate
07/12/2012
Ripristinabilità
Obiettivo
La misura di una caratteristica
07/12/2012
Ruoli “tipici”
tipici”
DATA STEWARD: ha la responsabilità della qualità dei dati
all’interno di un’area funzionale; a tal fine applica le
politiche per la qualità dei dati definite
dall’organizzazione e concorre al loro miglioramento.
PROCESS OWNER: ha la responsabilità di definire,
aggiornare e verificare la corretta esecuzione di uno o
più processi dell’organizzazione
UTENTI: tutti coloro che utilizzano i dati di proprietà
dell’organizzazione nell’ambito di un accordo formale
con l’organizzazione stessa.
DATA ADMINISTRATOR: definisce le politiche di gestione
dei dati di proprietà dell’organizzazione e ne controlla
l’attuazione
07/12/2012
Il metodo di valutazione
Le caratteristiche di qualità sono proprietà astratte la cui valutazione
richiede:
Un set di misure associato a ciascuna caratteristica
Un processo standard di misura
Un metodo di valutazione
I valori delle misure non sono di per sé
una valutazione della qualità.
E’ necessario definire degli indicatori
ed un rating che tenga conto dei
requisiti attesi.
A questo fine è possibile mappare i
dati quantitativi su una scala
qualitativa.
07/12/2012
Il miglioramento della Qualità
Qualità dei Dati
DOVE COMINCIARE?
Alcune riflessioni
Il valore aggiunto degli Open Data è nell’integrazione, che è perseguibile
solo se i dati hanno la qualità necessaria
La correzione di archivi implica la modifica di processi e procedure
La condivisione delle le soluzioni è essenziale per la creazione di un
modello di riferimento standard
07/12/2012
QD e gestione degli errori
Gli errori riscontrabili nelle basi di dati sono la
conseguenza di quattro tipologie di cause
Errori o inefficienze nel software che ha generato i
dati
Errori manuali nei processi di gestione
Errori di progettazione delle basi dati
Errori nei processi di Data Management / Data
Governance
La gestione / correzione degli errori è una fase
importante, e va accompagnata dalla rimozione delle
cause
07/12/2012
La QD nel processo di apertura dei DATI
Per ogni fase occorre esplicitare:
Cosa: azioni da compiere;
Quando: tempi;
Come: modalità operative;
Chi: ruoli e responsabilità.
Requisiti di qualità
dei dati
Pratiche e processo
di data quality
management,
misura e verifica
della QD
07/12/2012
1.Identificazione
dei dati
2.Analisi dei
dataset
identificati
3.Pubblicazione
dei dataset
4.Diffusione dei
dataset
pubblicati
Condivisione
Questa presentazione, nelle sue parti originali, è coperta da
licenza Creative Commons: Attribuzione, Non commerciale.
Condividi allo stesso modo.
http://creativecommons.org/licenses/by-nc-sa/2.5/it/legalcode
07/12/2012
[email protected]
07/12/2012