Tecnologie IBM per data governance File - e-Learning

Transcript

Tecnologie IBM per data governance File - e-Learning
Tecnologie IBM per la governance
e l’integrazione dei dati
Una panoramica
Monica Ginocchio
Senior IT Specialist
Software Group - IBM Italia
[email protected]
Carlo Patrini
Information Architect
Software Group - IBM Italia
[email protected]
Francesco Airoldi
Executive Architect
eTS Team - IBM Italia
[email protected]
© 2012 IBM Corporation
Agenda
Breve introduzione generale
Data Governance (cenni)
Data Integration: la piattaforma IBM
InfoSphere Information Server
Introduzione
Panoramica funzionale: come fare per:
2
•
Scoprire, modellare e gestire la struttura
ed il contenuto dell'informazione
•
Combinare e ristrutturare le informazioni
per nuovi utilizzi
•
Bonificare le informazioni aziendali
•
Sincronizzare, spostare e virtualizzare le
informazioni on-line
•
Migliorare la collaborazione e lo sviluppo
grazie ad un repository dei metadati
comune e condiviso
•
Utilizzare funzionalità addizionali
Tecnologie IBM per governance e integrazione dati
© 2012 IBM Corporation
Agenda
Breve introduzione generale
Data Governance (cenni)
Data Integration: la piattaforma IBM
InfoSphere Information Server
Introduzione
Panoramica funzionale: come fare per:
3
•
Scoprire, modellare e gestire la struttura
ed il contenuto dell'informazione
•
Combinare e ristrutturare le informazioni
per nuovi utilizzi
•
Bonificare le informazioni aziendali
•
Sincronizzare, spostare e virtualizzare le
informazioni on-line
•
Migliorare la collaborazione e lo sviluppo
grazie ad un repository dei metadati
comune e condiviso
•
Utilizzare funzionalità addizionali
Tecnologie IBM per governance e integrazione dati
© 2012 IBM Corporation
Information Management: visione ad alto livello
Fornire informazioni affidabili a supporto delle operazioni e decisioni di
business lungo tutta la “filiera” informativa della “azienda estesa”
Applicazioni
transazionali e
collaborative
Metodologie e strumenti
Integrare
Applicazioni
analitiche
Analizzare
Big Data
Gestire
Master
Data
Cubi
Streams
Dati
Sorgenti di
informazione
esterne
Data
Warehouses
Contenuti
Flussi
Governare
Qualità
4
Ciclo di vita
Sicurezza e
Riservatezza
Tecnologie IBM per governance e integrazione dati
Standards
Politiche,
metodologie e
strumenti
© 2012 IBM Corporation
Agenda
Breve introduzione generale
Data Governance (cenni)
Data Integration: la piattaforma IBM
InfoSphere Information Server
Introduzione
Panoramica funzionale: come fare per:
5
•
Scoprire, modellare e gestire la struttura
ed il contenuto dell'informazione
•
Combinare e ristrutturare le informazioni
per nuovi utilizzi
•
Bonificare le informazioni aziendali
•
Sincronizzare, spostare e virtualizzare le
informazioni on-line
•
Migliorare la collaborazione e lo sviluppo
grazie ad un repository dei metadati
comune e condiviso
•
Utilizzare funzionalità addizionali
Tecnologie IBM per governance e integrazione dati
© 2012 IBM Corporation
Le informazioni oggi: la necessità di governarle
Crescita esponenziale dei volumi di dati
Miriadi di formati diversi
Instrumented
Utilizzi in tempo reale
Interconnected
Intelligent
Accesso interno ed esterno all’azienda
Infrastrutture IT complesse
L’espolosione dell’informazione digitalizzata pone nuove
sfide ad aziende ed organizzazioni…
…creando la necessità di una migliore Information Governance
• Alimentare il business con dati affidabili, consistenti, di elevata qualità
• Gestire i dati lungo tutto il loro ciclo di vita
• Ridurre i rischi assicurando adeguati livelli di sicurezza e riservatezza
…il tutto controllando i costi e ottimizzando le infrastrutture
Information governance is the orchestration
and technology to enable an organization
to leverage information as an enterprise asset
6
Tecnologie IBM per governance e integrazione dati
Costi crescenti per infrastrutture e
gestione delle risorse
• Crescite dati non gestite, e degrado
delle prestazioni
• Ridondanza dei dati
• Applicazioni e infrastrutture disparate e
complesse
Mancanza di strategia comune su
sicurezza e riservatezza
• Rischi: brecce nella security, non
conformità a normative
• Incapacità di valutare le vulnerabilità e
prevenire intrusioni non autorizzate
Scarsa affidabilità delle informazioni
• Disallineamenti nella definizione del
significato dei dati
• Poca chiarezza nel comprendere le
sorgenti dati e le loro relazioni
reciproche
• Mancanza di standard e metriche sulla
qualità dei dati
• Mancanza di controllo sugli ambienti di
test dei dati
© 2012 IBM Corporation
Che dire di…
Costi crescenti per lo
storage (dischi)?
Essere preparati a controlli
(audit) audit interni ed esterni?
Conformità a un numero crescente di
leggi e normative?
Problemi prestazionali delle applicazioni,
a causa delle dimensioni dei loro
database, nei quali la maggior parte dei
dati sono obsoleti?
L’effetto moltiplicatore della
clonazione dei database di
produzione?
La qualità dei dati immessi
nei sistemi operazionali?
Sostituzione di applicazioni?
Attacchi esterni verso i
database di produzione?
Il tempo e lo sforzo richiesto
per creare e popolare
database di test?
Riservatezza dei dati sensibili, p.e.
se condivisi fuori dell’azienda?
Domande come:
Frodi interne e/o errori da parte di utenti
privilegiati (p.e. DBA)?
Gestire un gran numero di database
in ambienti complessi?
• Dove sono i dati?
• Da dove arrivano questi dati?
• Che cosa significano questi dati?
• Qual è l’impatto di modifiche su questa tabella?
• ....
Ciclo di vita dei dati (archiviazione,
cancellazione…)?
Information governance is able to address all the above
7
Tecnologie IBM per governance e integrazione dati
© 2012 IBM Corporation
IBM Information Governance
Un approccio globale
Validato dall’Information Governance Council
Aziende leader, business partners ed esperti di industria
http://www.infogovcommunity.com/
Implementazione accelerata sulla
base del Maturity Model definito
dal Council
Un quadro di riferimento (discipline,
livelli) come punto di partenza e per
la definire le azioni prioritarie
Applicato con un Processo
Unificato
Guidato dai requisiti e allineato
agli obiettivi di business, per
risolvere problemi di business
A good Information Governance program supports compliance initiatives,
reduces cost and minimizes risk to enable sustainable profitable growth
8
Tecnologie IBM per governance e integrazione dati
© 2012 IBM Corporation
InfoSphere: Collaborative Information Governance
Una suite completa di strumenti e soluzioni per le tre discipline fondamentali
del “Governance Maturity Model”
Ampiezza dell’offerta
• Indirizza un’ampia gamma di requisiti
Riutilizzo e consistenza
• Condivisione di metadati e “politiche”
Modularità, diversi “punti di ingresso”
• In funzione delle priorità di business e IT
Ampio spettro di applicabilità
• Tecnologie “open” che supportano ambienti
eterogenei
Soluzioni collaudate
L’informazione “fluisce” attraverso i
sistemi e i dipartimenti aziendali, in
modo simile alle merci fisiche di una
“supply chain”
Intoppi e guasti possono rovinare i
processi di business e condurre a
decisioni errate
Test/Dev
Single solution provider to govern and optimize the Information Supply Chain
9
Tecnologie IBM per governance e integrazione dati
© 2012 IBM Corporation
InfoSphere Information Governance: Quality Management
• Definire che cosa significa per
il business avere dati di
elevata qualità
• Sviluppare dati di test realistici
e riutilizzabili, conformi alle
normative sulla privacy
• Standardizzare e ripulire i dati
a supporto di inizative
strategiche
• Monitorare costantemente la
qualità dei dati e capire come
trattare le eventuali anomalie
• Capire le “filiere” alle quali
sono soggetti i dati
Test/Dev
Develop & Test
Understand & Define
10
Cleanse & Manage Continuously
Tecnologie IBM per governance e integrazione dati
• InfoSphere Discovery
• InfoSphere Data Architect
• InfoSphere Information
Analyzer
• InfoSphere Business
Glossary
• InfoSphere Metadata
Workbench
• InfoSphere Quality Stage
• InfoSphere Information
Server Data Quality Module
for SAP
© 2012 IBM Corporation
InfoSphere Information Governance: Lifecycle
• Capire il “che cosa e dove” dei
dati aziendali
• Includere nel ciclo di vita dei
dati aziendali lo sviluppo di
modelli e programmi per
configurare i dati degli
ambienti di test
• Ottimizzare le prestazioni
mediante l’identificazione dei
colli di bottiglia, e implementare
la corretta strategia per gestire
la crescita dei dati e delle
applicazioni
• Implementare un processo
consistente per il ritiro e il
consolidamento delle
applicazioni
Develop & Test
Test/Dev
Optimize, Archive & Access
Discover & Define
Consolidate & Retire
11
Tecnologie IBM per governance e integrazione dati
• InfoSphere Discovery
• InfoSphere Optim Data
Growth Solution
• InfoSphere Optim Test
Data Management
Solution
• InfoSphere Optim
solutions for performance
optimization
• IBM Content Collector
family
• IBM Commonstore for
SAP
© 2012 IBM Corporation
InfoSphere Information Governance: Security & Privacy
• Capire il “che cosa e dove” dei dati
aziendali
• Proteggere i dati ovunque in azienda,
a fronte di minacce sia interne che
esterne
• Sapere sempre chi sta accedendo ai
dati, quando, e perchè
• Monitorare l’accesso ai database e
generare report ai fini di audit
Test/Dev
Discover & Define
Monitor & Audit
Secure & Protect
12
Tecnologie IBM per governance e integrazione dati
• InfoSphere Discovery
• InfoSphere Optim Data
Masking Solution
• InfoSphere Guardium Data
Redaction
• InfoSphere Guardium
Encryption Expert
• InfoSphere Guardium
Database Activity Monitor
• Tivoli Security Information
& Event Monitor
© 2012 IBM Corporation
Agenda
Breve introduzione generale
Data Governance (cenni)
Data Integration: la piattaforma IBM
InfoSphere Information Server
Introduzione
Panoramica funzionale: come fare per:
13
•
Scoprire, modellare e gestire la struttura
ed il contenuto dell'informazione
•
Combinare e ristrutturare le informazioni
per nuovi utilizzi
•
Bonificare le informazioni aziendali
•
Sincronizzare, spostare e virtualizzare le
informazioni on-line
•
Migliorare la collaborazione e lo sviluppo
grazie ad un repository dei metadati
comune e condiviso
•
Utilizzare funzionalità addizionali
Tecnologie IBM per governance e integrazione dati
© 2012 IBM Corporation
Contesto e obiettivi
Origine delle informazioni
Fornire informazioni affidabili a
partire da sistemi differenti e
frammentati, con i volumi e la
velocità richiesta.
14
Tecnologie IBM per governance e integrazione dati
Utenti delle informazioni
Indirizzare le diverse esigenze
del business con informazioni
pertinenti quando e dove esse
servono.
© 2012 IBM Corporation
IBM InfoSphere vision
Una piattaforma unica per la gestione delle informazioni
• Semplifica il rilascio di informazioni affidabili
• Accelera il client value
• Agevola la collaborazione
• Mitiga il rischio
• Modulare ma Integrata
• Scalabile – dal progetto all’impresa
15
Tecnologie IBM per governance e integrazione dati
© 2012 IBM Corporation
IBM InfoSphere vision
16
Tecnologie IBM per governance e integrazione dati
© 2012 IBM Corporation
InfoSphere Information Platform
Le fondamenta per avere informazioni affidabili
Business
Applications
CRM
Business
Analyst
Data
Steward
LOB
Owner
Data
Analyst
Subject Matter
Expert
CxO
Application / Data Silos
ERP
Call
Center
CRM
Data Analysis
& Reporting
ERP
Data
Mining
Legacy
Predictive
Modelling
Data
Architect
17
Developer
System
Architect
IT Manager
Database
Administrator
CIO
Tecnologie IBM per governance e integrazione dati
Enterprise
Architect
Application
Manager
Mgt
Reporting
© 2012 IBM Corporation
Collaborazione e Produttività
Approfondire
Strumenti e Ruoli: condivisione immediata dei Metadati
Esempi
Una Definizione
I Metadati costituiscono il curriculum vitae dei dati, raccolgono le informazioni
relative al dove, al quando, al come e da chi i dati sono stati ottenuti
Utenti
Business
Esperti
in materia
Architetti
Analisti
Dati
Sviluppatori
Database
Administators
Gestione dei Metadati Unificata
 Semplifica l’integrazione
 Incrementa l’affidabilità delle
informazioni
Design
18
Operational
 Semplifica il riutilizzo e il Favorisce la compatibilità
change management
con gli standard
© 2011 IBM Corporation
IBM Information Server: architettura
UNIFIED USER INTERFACE
Analysis
Interface
Development
Interface
Web Admin
Interface
COMMON SERVICES
Metadata
Services
Unified
Service
Deployment
Security
Services
UNIFIED PARALLEL PROCESSING
Understand
Cleanse
Transform
Logging &
Reporting
Services
UNIFIED METADATA
Deliver
Design
Operational
COMMON CONNECTIVITY
Structured, Unstructured, Applications, Mainframe
19
Tecnologie IBM per governance e integrazione dati
© 2012 IBM Corporation
Quale tool per quale fase
InfoSphere QualiyStage
InfoSphere Business Glossary
InfoSphere Information Analyzer
InfoSphere FastTrack
InfoSphere DataStage
InfoSphere Information Server Manager
Native connectivity
(DB2, Informix, Netezza,
Oracle, Teradata...)
InfoSphere Information Services Director
InfoSphere
Connectivity Pack
(SAP, Siebel, ...)
InfoSphere Metadata Workbench
InfoSphere Federation Server
InfoSphere Replication/CDC tools
Core component
Add-on component
20
Tecnologie IBM per governance e integrazione dati
© 2012 IBM Corporation
Agenda
Breve introduzione generale
Data Governance (cenni)
Data Integration: la piattaforma IBM
InfoSphere Information Server
Introduzione
Panoramica funzionale: come fare per:
21
•
Scoprire, modellare e gestire la struttura
ed il contenuto dell'informazione
•
Combinare e ristrutturare le informazioni
per nuovi utilizzi
•
Bonificare le informazioni aziendali
•
Sincronizzare, spostare e virtualizzare le
informazioni on-line
•
Migliorare la collaborazione e lo sviluppo
grazie ad un repository dei metadati
comune e condiviso
•
Utilizzare funzionalità addizionali
Tecnologie IBM per governance e integrazione dati
© 2012 IBM Corporation
L’importanza di un glossario di Business
Comprendere
In poche parole, un glossario Business è creato per rappresentare il linguaggio del
business, indipendentemente dalla tecnologia
• Responsabilità
• Identificare gli stewards
• Gestione dei contenuti
• Collaborazione
• Vocabolario comune ed approvato
• Condividere le esperienze di competenza Business & IT
• Auditability
• Evoluzione del linguaggio
• Gestione centralizzata
Gestione degli elementi determinanti per la
conformità alle varie normative e all'IBM
Data Governance Maturity Model
22
Tecnologie IBM per governance e integrazione dati
© 2012 IBM Corporation
InfoSphere Business Glossary
Comprendere
• Un tool web-based dedicato agli
utenti di business che permette:
• La creazione e gestione di un
vocabolario controllato
• Creazione e gestione di una
tassonomia di business
• Creazione di un repository dei
metadati di business
• Un riferimento per conoscere il
patrimonio informativo
dell'impresa
•
•
•
•
•
Significato
Dipendenze
Utilizzo
Qualità
Ownership/Responsabilità
Organizzato secondo gerarchie di
business definite dalla tassonomia di
business
23
Tecnologie IBM per governance e integrazione dati
© 2012 IBM Corporation
Information Analyzer
Analizzare le informazioni e monitorarne la qualità
Comprendere
• Fornisce un’analisi dettagliata dei sistemi
esistenti
• Analisi focalizzata su dati di applicazioni,
database e files, per contenuto, qualità e
struttura
• Affidabile e dettagliato profiling di campi e
relazioni attraverso strutture e sorgenti
multiple
• Consente la misurazione ed il reporting
della qualità dell’informazione
Subject Matter
Experts
Data
Analysts
IBM Information Analyzer
Business
Analizza strutture dati e ne controlla
Glossary
l’aderenza alle regole di integrazione
e qualità
• Crea i metadati che descrivono dove
l’informazione è gestita attraverso i
sistemi coinvolti
• Consentendo l’analisi di specifiche fonti
si mettono in evidenza i punti che
costituiscono potenziali criticità
Approfondire
24
Vista fisica
Esempi
Tecnologie IBM per governance e integrazione dati
© 2012 IBM Corporation
Come lavora InfoSphere Information Analyzer
Comprendere
Column Analysis
Table Analysis
Cross-Table Analysis
Analisi delle “Primary Keys”
Analisi delle “Foreign Keys”
e delle analogie tra colonne
Analisi delle frequenze di distribuzione
Analisi di Classe, Proprietà, Formato,
Dominio e Completezza
Annotazioni e
evidenziazioni dei campi da controllare
25
Capacità di confronto rispetto a “baselines”
Tecnologie IBM per governance e integrazione dati
Report dei risultati
© 2012 IBM Corporation
Information Analyzer: l’analisi dei dati
Comprendere
26
Tecnologie IBM per governance e integrazione dati
© 2012 IBM Corporation
Information Analyzer: Data Auditing
• Possibilità di definire Data Rule
per il monitoraggio della
conformità dei dati alle regole di
business
• Possibilità di definire delle
Metriche per il monitoraggio
globale della qualità dati e la
registrazione del suo andamento
nel tempo
• Condivisione dei Metadati dei
sistemi sorgente
Approfondire
27
Tecnologie IBM per governance e integrazione dati
Esempi
© 2012 IBM Corporation
Agenda
Breve introduzione generale
Data Governance (cenni)
Data Integration: la piattaforma IBM
InfoSphere Information Server
Introduzione
Panoramica funzionale: come fare per:
28
•
Scoprire, modellare e gestire la struttura
ed il contenuto dell'informazione
•
Combinare e ristrutturare le informazioni
per nuovi utilizzi
•
Bonificare le informazioni aziendali
•
Sincronizzare, spostare e virtualizzare le
informazioni on-line
•
Migliorare la collaborazione e lo sviluppo
grazie ad un repository dei metadati
comune e condiviso
•
Utilizzare funzionalità addizionali
Tecnologie IBM per governance e integrazione dati
© 2012 IBM Corporation
InfoSphere DataStage
Trasformare ed aggregare informazioni in batch o real-time
Trasformare
• Consente la progettazione visuale delle
procedure senza bisogno di codice,
sfruttando centinaia di funzioni built-in
• Riutilizzo ottimizzato delle procedure
• Supporto batch & real-time
• Produce componenti riusabili tra progetti
Developers
Architects
InfoSphere DataStage®
• Funzionalità ETL complete con
approccio orientato ai metadati
Trasforma ed aggrega informazioni in
batch o real-time attraverso un design
visuale della logica
• Supporto alla collaborazione ed al
lavoro in team
• Fornisce accesso ad ogni genere di
fonte dati
Centinaia di funzioni di
trasformazione built-in
29
Tecnologie IBM per governance e integrazione dati
© 2012 IBM Corporation
InfoSphere DataStage…
L’ambiente di sviluppo
Trasformare
30
Tecnologie IBM per governance e integrazione dati
© 2012 IBM Corporation
InfoSphere DataStage…
Trasformazione e movimentazione dei dati
Visualizzazione del percorso dei dati durante lo sviluppo
dellequalunque
procedure

Ricerca
oggetto
–

31

Trasformare
DataStage
Trova eventuali dipendenze
…Da quali altri elementi dipende un dato oggetto ?
Identifica dove viene utilizzato
–
…Dov’è utilizzato ?
© 2011 IBM Corporation
InfoSphere DataStage…
Performance: esecuzione parallela
Assemblaggio della procedura: un singolo flusso
Trasformare
Data
Source
Data
TRANSFORM
ENRICH
LOAD
Warehouse
• Disegno sequenziale, deploy parallelo
Esecuzione della procedura: sequenziale o parallela
• Scalabilità lineare
• Partizionamento dinamico dei dati e
ripartizionamento “in-flight”
Sequential
4-Way Parallel
64-Way Parallel
• Portabile su SMP, Cluster, GRID, e
piattaform MPP
• Supporto per RDBMS paralleli (IBM
DB2 UDB, Oracle, Teradata, Informix)
• Parallelizzazione “codeless”
• Incorpora e rende parallele
applicazioni esterne esistenti, senza
scrittura di codice
Uniprocessor
SMP System
MPP, GRID, and
Clustered Systems
Benefici per il business
• Elevata produttività
• Uso ottimale dell’hardware
• Flessibilità nell’esecuzione
32
Tecnologie IBM per governance e integrazione dati
© 2011 IBM Corporation
InfoSphere DataStage…
Connettività a svariatissime sorgenti di dati
RDBMS
DB2 (on Z, I, P or X series)
Oracle
Informix (IDS and XPS)
Ingres
MySQL
Netezza
Progress
RDB
RedBrick
SQL/DS
SQL Server
Sybase (ASE & IQ)
Teradata
Universe
UniData
NonStopSQL
And more…..
33
General Access
Sequential File
Complex Flat File
File / Data Sets
Named Pipe
FTP
Compressed / Encoded Data
External Command Call
Parallel/wrapped 3rd party
apps
EMC InfoMover
Web logs
Unstructured: e-mail, docs, etc.
Content Management Systems
Life Sciences
Enterprise Applications
JDE/PeopleSoft EnterpriseOne
Oracle Applications
PeopleSoft Enterprise
SAS
SAP R/3 & BI
SAP XI
Siebel
JDA
Ariba
Manugistics
I2
And more…
Trasformare
Standards & Real Time
InfoSphere MQ
Java Messaging Services (JMS)
Java
XML & XSL-T
EBXML
Web Services (SOAP)
Enterprise Java Beans (EJB)
EDI
FIX
SWIFT
HIPAA
CDC / Replication
DB2 (on Z, I, P, X series)
Oracle
SQL Server
Sybase
Informix
IMS
VSAM
ADABAS
IDMS
NonStopSQL
Enscribe
Tecnologie IBM per governance e integrazione dati
Legacy
Allbase/SQL
C-ISAM
D-ISAM
Datacom/DB
DS Mumps
Enscribe
Essbase
FOCUS
IDMS/SQL
ImageSQL
Infoman
KSAM
M204
MS Analysis
Nomad
Nucleus
RMS S2000
Supra
TOTAL
TurboImage
Unify
And many more….
© 2012 IBM Corporation
Uso ottimizzato dei sistemi
• L’ottimizzazione non è legata allo “stile”
dell’implementazione (ETL o ELT), l’approccio
ibrido consente TELT e/o TETLT per aumentare
la flessibilità e le prestazioni
• InfoSphere DataStage Balanced Optimization
sfrutta completamente le capacità elaborative
dei nodi DataStage, Netezza, DB2, Oracle e
Teradata
• Fornisce prestazioni e scalabilità illimitate
attraverso l’esecuzione parallela delle
procedure
34
© 2011 IBM Corporation
Interfaccia utente di IS Balanced Optimization
Opzioni di ottimizzazione
Proprietà specifiche del
connettore
Repository
Job originale ed ottimizzato
Trace / Logging dettagliato
35
Tecnologie IBM per governance e integrazione dati
© 2012 IBM Corporation
Agenda
Breve introduzione generale
Data Governance (cenni)
Data Integration: la piattaforma IBM
InfoSphere Information Server
Introduzione
Panoramica funzionale: come fare per:
36
•
Scoprire, modellare e gestire la struttura
ed il contenuto dell'informazione
•
Combinare e ristrutturare le informazioni
per nuovi utilizzi
•
Bonificare le informazioni aziendali
•
Sincronizzare, spostare e virtualizzare le
informazioni on-line
•
Migliorare la collaborazione e lo sviluppo
grazie ad un repository dei metadati
comune e condiviso
•
Utilizzare funzionalità addizionali
Tecnologie IBM per governance e integrazione dati
© 2012 IBM Corporation
InfoSphere QualityStage
Standardizzare e correggere le informazioni
Bonificare
 Implementa processi specializzati sulla
qualità del dato
– Assicura informazioni corrette, standardizzate, deduplicate
– Fornisce un’unica versione valida del dato
– Supporta gli standard postali worldwide
 Fornisce strumenti visuali per il design
delle regole di qualità e la logica di
matching
– Completamente integrato con DataStage (un engine,
un metamodello, una UI)
– Calibrazione fine delle regole di matching
Subject Matter
Experts
Data
Analysts
InfoSphere QualityStage™
Standardizza e corregge dati, consente
il matching di record da sorgenti
diverse e la creazione di singole viste
 Consente il deployment della logica in
procedure ETL o come servizi condivisi
Visual Match Rule Design
37
Tecnologie IBM per governance e integrazione dati
© 2012 IBM Corporation
Le sfide sulla qualità dei dati
• Mancanza di standard
informativi
• Diversi formati e strutture su
diversi sistemi
• Sorprese sui dati nei singoli
campi
• Dati “fuori posto” nelle fonti dati
Luca Di Lorenzo
via Sciangai 53, 00144, Roma (IT)
Di Lorenzo, Luca
v. Shangai, Roma Italia, 00144
Sig. Di Lorenzo L.
53, v. Shangai B4/3 Rome, Italy
Name
CF
Telephone
Luca Di Lorenzo
Sistemi S.r.l
SimCasa ag. 3
Marco Rinaldi
LCDLRZ23GH501G
15884773662
p.iva 126577488
cod. fisc.
+39066170300
0039-02415-39200
nessuno
MRCRND12H23
WING ASS. FORO 4 USO 5J868A DADO ESAGONALE 1/4 POLLICE
• Informazioni “annegate” in
campi free-form
• Consistenza dei dati
• Mancanza di identificatori
consistenti non permette la
realizzazione di una vista unica
• Ridondanza
• Record duplicati, mancanza di
standard
38
WING ASSEMBL, UTIL. 5J868-A DADO ESAG. .25” - DRILL FOUR HOLES
USE 4 5J868A DADO (HEX .25) – USO FORATURA PER ASSEMBL. ALA
RUDER, TAP 6 WHOLES, SECURE W/KL2301 RIVETTI (10 CM)
19-84-103
Cavo RS232 6' M-F CandS
CS-89641
Cavo Maschio-F 6 ft. RS232 #87951
C&SUCH6
Maschio/Femmina 25 PIN 6 piedi, cavo
90328574
90328575
90238495
90233479
90233489
90345672
IBM
I.B.M. Inc.
Int. Bus. Machines
International Bus. M.
Inter-Nation Consults
I.B. Manufacturing
Tecnologie IBM per governance e integrazione dati
via Sciangai 53, Roma IT 00144
V. Sciangai 54 Roma IT 00144
via Agrostemmi 21, Roma, Italia
v. Agrostemmi 21, Santa Palomba
v.le Sciangai 53, Roma, 00144
via Shangai 53, 00144 Roma,
© 2012 IBM Corporation
InfoSphere QualityStage
Bonificare
Approfondire
Esempi
Investigazione:
comprensione dei dati e loro
classificazione in modelli
Standardizzazione:
riconduzione dei dati ad
un unico standard
Matching:
Identificazione dei duplicati
Survivorship:
i dati migliori, anche rispetto a più sorgenti,
“sopravvivono” in un nuovo record
39
Tecnologie IBM per governance e integrazione dati
© 2012 IBM Corporation
Agenda
Breve introduzione generale
Data Governance (cenni)
Data Integration: la piattaforma IBM
InfoSphere Information Server
Introduzione
Panoramica funzionale: come fare per:
40
•
Scoprire, modellare e gestire la struttura
ed il contenuto dell'informazione
•
Combinare e ristrutturare le informazioni
per nuovi utilizzi
•
Bonificare le informazioni aziendali
•
Sincronizzare, spostare e virtualizzare le
informazioni on-line
•
Migliorare la collaborazione e lo sviluppo
grazie ad un repository dei metadati
comune e condiviso
•
Utilizzare funzionalità addizionali
Tecnologie IBM per governance e integrazione dati
© 2012 IBM Corporation
InfoSphere Information Service Director
Esporre le logiche di traformazione via web senza
la scrittura di codice
• Un applicazione J2EE che incapsula le
logiche di integrazione informativa in servizi
che isolano gli sviluppatori dalle fonti dati
fisiche
Distribuire
Developers
Architects
InfoSphere Information Services Director
• Consente ai servizi di essere invocati come
Enterprise Java Beans
Consente la gestione ed il deploy dei
servizi senza scrittura di codice
• Implementa funzionalità di load balancing &
fault tolerance per richieste verso clusters
di InfoSphere Information Server
• Implementa l’infrastuttura di base degli
Information Services
Deployment SOA rapido
41
Tecnologie IBM per governance e integrazione dati
© 2012 IBM Corporation
Agenda
Breve introduzione generale
Data Governance (cenni)
Data Integration: la piattaforma IBM
InfoSphere Information Server
Introduzione
Panoramica funzionale: come fare per:
42
•
Scoprire, modellare e gestire la struttura
ed il contenuto dell'informazione
•
Combinare e ristrutturare le informazioni
per nuovi utilizzi
•
Bonificare le informazioni aziendali
•
Sincronizzare, spostare e virtualizzare le
informazioni on-line
•
Migliorare la collaborazione e lo sviluppo
grazie ad un repository dei metadati
comune e condiviso
•
Utilizzare funzionalità addizionali
Tecnologie IBM per governance e integrazione dati
© 2012 IBM Corporation
InfoSphere Metadata Workbench
Esplorare e comprendere il patrimonio generato e
utilizzato dalla suite InfoSphere Information Server
•
Esplorazione web-based degli
assets generati e utilizzati da
InfoSphere Information Server o
importati da tools esterni
Metadati
Data
Integration
Managers
Sviluppatori
IBM Metadata Workbench®
43
•
Funzionalità out-of-the-box di
reporting sui dati, data lineage,
significato di business, analisi di
impatto e dipendenze
•
Data lineage dai report di business
intelligence come base per la
governance e la compliance verso
legislazioni come Sarbanes-Oxley,
Basel II
Tecnologie IBM per governance e integrazione dati
Fornisce allo staff IT uno strumento
per esplorare e comprendere il
patrimonio generato e utilizzato dalla
suite InfoSphere Information Server.
© 2012 IBM Corporation
InfoSphere Metadata Workbench..
Overview delle funzionalità
Metadati
ESPLORAZIONE
ANALISI
GESTIONE
Esplorazione degli assets di
InfoSphere Information Server:
Analisi delle dipendenze e
delle relazioni tra assets e
report di BI di applicazioni
esterne
Gestione dei metadati di
InfoSphere Information Server
a scopo analitico
 Tracciamento dei movimenti
dati da e per I database, job e
report
 Modifica dei nomi e delle
descrizioni degli assets
Job, Report, Database,
Modelli, Termini, Stewards,
Sistemi
 Navigazione degli assets
 Ricerca semplice ed
avanzata
 Vista cross-suite integrata
degli assets
 Vista grafica delle relazioni
tra assets
 Query builder ad-hoc
44
 Comprensione del
significato di business di
colonne, tabelle ed altri assets
 Comprensione dell’impatto
dei cambiamenti di una
colonna o di un flusso
attraverso tutta la piattaforma
Tecnologie IBM per governance e integrazione dati
 Creazione di steward e
loro assegnazione
 Riconciliazione di assets
duplicati
 Accesso alle informazioni
di runtime
© 2012 IBM Corporation
Da dove provengono i dati relativi ad un campo di un report ?
Metadati
Navigazione nei metadati dei report di BI
 Navigazione attraverso gli attributi dei reports
 Data lineage anche rispetto a strumenti differenti
Cosa accade modificando una colonna ?
!
!
 Aumenta affidabilità e comprensione delle informazioni di
business
!
Analisi di impatto
 Mostra gli impatti in formato grafico o tabellare
 Anche su report degli strumenti di BI
!
Qual’è il significato di un campo ?
 Riduce i costi associati ai cambiamenti
!
Mostra le relazioni tra termini di business,
entità di un modello dati, campi tecnici o di un
report
 Permette la comprensione del significato dei campi
 Permette la comprensione delle relazioni tra termini di business
 Supporta la “data governance”
45
45
© 2011 IBM Corporation
Agenda
Breve introduzione generale
Data Governance (cenni)
Data Integration: la piattaforma IBM
InfoSphere Information Server
Introduzione
Panoramica funzionale: come fare per:
46
•
Scoprire, modellare e gestire la struttura
ed il contenuto dell'informazione
•
Combinare e ristrutturare le informazioni
per nuovi utilizzi
•
Bonificare le informazioni aziendali
•
Sincronizzare, spostare e virtualizzare le
informazioni on-line
•
Migliorare la collaborazione e lo sviluppo
grazie ad un repository dei metadati
comune e condiviso
•
Utilizzare funzionalità addizionali
Tecnologie IBM per governance e integrazione dati
© 2012 IBM Corporation
Connettività verso applicativi
Requisiti
Information Server Packs
Abilita InfoSphere DataStage
e QualityStage ad accedere
ai dati delle applicazioni
enterprise
Benefici
Riduce la necessità di
conoscere le applicazioni
enterprise
Elimina la necessità di
scrivere codice e fornisce
un’interfaccia grafica
Riduce I costi di sviluppo e
aumenta la capacità di
riutilizzo.
47
Tecnologie IBM per governance e integrazione dati
© 2011 IBM Corporation
Domande ?
48
Tecnologie IBM per governance e integrazione dati
© 2011 IBM Corporation
Grazie
Tecnologie IBM per governance e integrazione dati
© 2011 IBM Corporation