Big Data e Analytics Enterprise Data Governance e Master Data
Transcript
Big Data e Analytics Enterprise Data Governance e Master Data
LA TECHNOLOGY TRANSFER PRESENTA MIKE FERGUSON Big Data e Analytics Enterprise Dalla Strategia Data Governance all’Implementazione e Master Data Management 5-6 GIUGNO 2017 7-8 GIUGNO 2017 RESIDENZA DI RIPETTA - VIA DI RIPETTA, 231 ROMA [email protected] www.technologytransfer.it Big Data e Analytics DESCRIZIONE Questo workshop si propone di spiegare ai Professionisti di Business Intelligence di Data Warehousing e ai Data Scientist cosa sono i Big Data, Hadoop, altri database NoSQL e l’Analitica multi-piattaforma. Cosa è questo nuovo fenomeno? Come può essere usato? Come si colloca all’interno dell’ambiente analitico tradizionale? Di quali skills avete bisogno per sviluppare Big Data? Il workshop risponderà a queste e molte altre domande. In particolare i partecipanti impareranno: • Cosa sono i Big Data • Come i Big Data creano molti nuovi tipi di workload analitico • Le differenti Piattaforme tecnologiche per Big Data • Tecniche analitiche di Big Data e tools di front-end • Come analizzare dati non modellati e multi-strutturati usando Hadoop e MapReduce • Come integrare Big Data con i sistemi tradizionali di BI e DW • Come capire i casi d’uso di business per differenti tecnologie di Big Data • Come far partire e organizzare progetti su Big Data • Come usare Big Data per ottenere un valore di business PARTECIPANTI • Direttori IT • CIO • IT Managers • Business Intelligence Managers • Professionisti di Data Warehousing • Data Scientists • Enterprise Architects • Data Architects PROGRAMMA 1. Introduzione ai Big Data Questa sessione definisce i Big Data e analizza le ragioni per voler fare uso di questo nuovo settore della tecnologia. Esamina i casi d’uso per i Big Data e spiega qual è la differenza tra i tradizionali BI e Data Warehousing e i Big Data. • Cosa sono i Big Data? • Tipi di Big Data • Perché analizzare i Big Data? • La necessità di analizzare nuove e più complesse sorgenti di dati • Casi di utilizzo • Cosa è la Data Science? • Data Warehousing e BI rispetto ai Big Data • Patterns per tecnologie di Big Data 2. Introduzione alla Big Data Analytics In questa sessione viene analizzata la Big Data Analytics, gli strumenti, le tecniche coinvolte e la possibile integrazione di questo nuovo ambiente con l’ambiente esistente di Data Warehouse e Business Intelligence. Spiega anche come sfruttare al massimo gli strumenti esistenti di Data Management e di BI attraverso Piattaforme di DW e Big Data. • Tipi di Big Data Analytical workloads • Streaming dei dati ad alta velocità • Exploratory Analysis per dati multi-strutturati • Analisi complessa di dati strutturati • Graph Analytics • Sfide per la gestione e l’analisi dei Big Data • I componenti chiave in un ambiente Big Data Analytics • Preservare i precedenti investimenti in BI/DW • Il Big Data Extended Analytical Ecosystem 3. Piattaforme di Big Data e opzioni di memorizzazione Questa sessione esamina le piattaforme e le opzioni di archiviazione dei dati per Big Data Analytics. • Il nuovo ecosistema analitico Multi-Piattaforma • Oltre il Data Warehouse: Hadoop NoSQL e RDBMSs analitici, NewSQL DBMSs • NoSQL DBMSs • Un’introduzione a Hadoop e a Hadoop Stack • HDFS, MapReduce, Pig & Five • Apache Spark Framework • Opzioni SQL su Hadoop: Impala, Hive, SparkSQL, HawQ, HP Vertica SQL su Hadoop, IBM BigSQL, CitusDB JethroData, Splice Machine, Actian Analytics Platform, Oracle Big Data SQL, Teradata QueryGrid • Il mercato dei Big Data - Hadoop distributions – Cloudera, HortonWorks, MapR, IBM BigInsights Open Data Platform, Microsoft HD Insight, PivotalHD - Big Data Appliances – Oracle Big Data Appliance, IBM PureData System for Hadoop, HP HAeN, Teradata Aster Discovery Server - Databases NoSQL ad esempio Datastax, Neo4J, Cassandra, MongoDB, Riak • L’opzione di deployment Cloud – Microsoft Windows Azure (HDinsight Data Lake & Data Factory), IBM Bluemix, Amazon Elastic MapReduce, Altiscale Data Cloud, Qubole, Oracle, Analytics Cloud • Creare un ecosistema analitico Multi Piattaforma 4. L’integrazione dei Big Data in un ambiente analitico Multi-Piattaforma In questa sessione si guarda alla sfida dell’integrazione dei Big Data e alle problematiche specifiche che questo solleva. Come Vi comportate con grandi volumi di dati e diverse varietà di dati? Come il caricamento dei dati in Hadoop differisce dal caricamento dei dati in database relazionali analitici? Che cosa sui databases NoSQL? Come dovrebbe essere gestita la bassa latenza dei dati? • Tipi di Big Data • Connessione alle fonti di Big Data, come ad esempio: i Web logs, clickstream, i dati del sensore, contenuti strutturati e semi-strutturati • Fornire dati consistenti alle diverse piattaforme analitiche • Caricare i Big Data: quale è la differenza fra HDFS, Hive & NoSQL e i databases relazionali analitici • Cambiare il modo di catturare i dati - Cosa è possibile • Data Warehouse offload • Tools di ETL su Hadoop: l’Enterprise Data Refinery • Preoccuparsi con la Qualità dei dati in un ambiente Big Data • Fare il parsing dei dati non strutturati • Governare i dati in un ambiente di Data Science • Mettere insieme il processing analitico da ETL ai workflows analitici • L’impatto del Data Scientist e dell’utente finale selfservice DQ/DI: Paxata, Trifacta, MS Excel, Microstrategy, Tableau • Big Data Audit, Protezione e Sicurezza: Cloudera Sentry, Dataguise, Hortonworks Ranger, IBM Guardium, Protegrity 5. Tools e tecniche per analizzare i Big Data Questa sessione esamina gli strumenti disponibili sia per i Data Scientists che per i tradizionali Professionisti di DW/BI. Esamina come entrambi i tipi di sviluppatori possono sfruttare le Piattaforme Big Data, come i databases Hadoop e NoSQL, utilizzando tecniche di programmazione e strumenti di BI tradizionali e i fornitori stanno rendendo più facile l’accesso al mondo NoSQL/Hadoop e ai databases relazionali analitici usando la virtualizzazione. • Progetti di Data Science • Creare Sandbox per progetti di Data Science • Opzioni per analizzare contenuto non strutturato • Usare R come un linguaggio analitico per Big Data • Analisi del testo e visualizzazione, Sentiment Analysis e visualizzazione • Analisi del clickstream e visualizzazione • Analizzare i Big Data usando MapReduce e applicazioni per Hadoop come ad esempio: ClearStory Data, Datameer, FICO Karmasphere, Platfora • Analisi Exploratory Graph e visualizzazioni • Usare Search per analizzare dati multi-strutturati: - Creare indici search sui dati multi-strutturati - Costruire Dashboards e reports sopra il contenuto indicizzato del motore di ricerca - L’integrazione del Search con le tradizionali piattaforme B - Analisi guidata usando multi-faceted Search - Il mercato: Apache Solr, Attivio, Cloudera Search, Connexica, DataRPM, HP IDOL, IBI WebFocus Magnify, IBM Watson Explorer, LucidWorks, Microsoft, Oracle Endeca Quid, Splunk • Analizzare i Big Data usando tools self-service di BI come Dell Statistica, Excel, IBM Watson Analytics, Tableau, Qlik, RapidMiner, TIBCO Spotfire, SAS Visual Analytics, MicroStrategy, SAP Lumira, Zoomdata • Big Data Analytics: query performance enablers • Gestire lo stream computing in un ambiente di Big Data • Tools e tecniche per streaming analytics 6. Integrare Big Data Analytics in azienda Questa sessione analizza il modo in cui le nuove Piattaforme Big Data possono essere integrate con i tradizionali Data Warehouse e Data Mart. Esamina lo Stream Processing, Hadoop, databases NoSQL, Data Warehouse appliances e mostra come metterli insieme per massimizzare il valore del business dei Big Data. • Integrazione di Piattaforme Big Data con i tradizionali ambienti di DW/BI: cosa è coinvolto • Integrazione di Streaming Processing con Hadoop e Appliances analitiche di DW • Integrazione di Hadoop con Appliances di DW e Enterprise DW • Mettere insieme i tools di front-end • Opzioni per implementare analitica Multi-Piattaforma • Workflows analitici cross-platform • Il ruolo della Data Virtualization in un ambiente Big Data • Ottimizzazione Multi-Piattaforma Enterprise Data Governance e Master Data Management DESCRIZIONE Questo seminario esamina in dettaglio i problemi di Business causati da una cattiva gestione dei dati includendo identificatori inconsistenti, nomi di dati e politiche, cattiva qualità dei dati, cattiva protezione dell’informazione e approcci errati all’integrazione dei dati. Definisce inoltre i requisiti che sono necessari affinché un’azienda definisca, gestisca e condivida tutti i tipi di dati: master, transazionali, analitici e non strutturati attraverso applicazioni e processi operativi e analitici sia on-premise che nel Cloud. Dopo aver compreso i requisiti, i partecipanti impareranno cosa dovrebbe essere fatto per mettere a punto una strategia di Data Management in termini di persone, processi, metodologie e tecnologie per portare i dati sotto controllo. In aggiunta si spiegherà come introdurre la Governance nelle diverse discipline di Data Management includendo Data Naming, Enterprise Metadata Management, Data Modeling, Data Relationship Discovery, Data Profiling, Data Cleaning, Data Integration, Reference Data Management e Master Data Management. Durante il seminario si esamineranno le tecnologie necessarie per ciascuna di queste aree e le Best Practices in termini di approcci e metodologie all’integrazione dei dati e Master Data Management. Alla fine del seminario i partecipanti impareranno: • Come mettere in piedi un programma di Data Management • Quali tecnologie sono necessarie per l’Enterprise Data Management, la Data Integration e il Master Data Management • Quando usare alcune tecnologie piuttosto che altre • Le metodologie per il Metadata Management e la Data Governance • A progettare e implementare soluzioni di Data Integration e MDM PARTECIPANTI • Chief Data Officers • Enterprise Architects • Data architects • Master Data Management Professionals • Business Professionals • Database Administrators • Data integration Developers PROGRAMMA 1. Una Introduzione alla Enterprise Data Governance Questa sessione definisce cosa è l’Enterprise Data Governance e spiega perché le aziende devono investire per fornire informazioni sicure e di qualità per garantire la consistenza. Spiega infine perché la Data Integration e il Data Management dovrebbero essere una competenza fondamentale per ciascuna organizzazione. • Una introduzione all’Enterprise Data Governance • L’impatto di dati non gestiti sulla profittabilità del business e l’abilità di rispondere in maniera appropriata alla pressione della concorrenza • I Vostri dati sono fuori controllo? • I principali requisiti per l’Enterprise Data Governance • Stabilire una strategia per la Data Governance • Principali ruoli e responsabilità: data stewards e data owners • Formalizzare i processi di Data Governance • Tipi di politiche per governare i dati: - Data Integrity rules - Data Validation rules - Data Cleansing rules - Data Integration rules - Data Provisioning rules - Data Privacy rules - Sicurezza dell’accesso ai dati 2. Tecnologie e Metodologie di Data Governance Dopo aver capito la strategia, in questa sessione si affronta il tema della metodologia per la Data Governance e il Data Management. Si esaminano inoltre le tecnologie per tenere i dati sotto controllo e come le piattaforme di Data Management costituiscono il fondamento della Vostra Enterprise Architecture per gestire l’informazione attraverso l’Enterprise. • Una metodologia step-by-step per la Data Governance e il Data Management • La piattaforma tecnologica del Data Management • Il mercato del Data Management • La piattaforma del Data Management nella Vostra Enterprise Architecture • Opzioni di implementazione • L’impatto della Self-Service BI e Self-Service Data Integration • Data Management on-premise e nel Cloud 3. Standardizzazione dei dati e il glossario del Business La sessione esamina il primo step del Data Management: la necessità della standardizzazione dei dati. Per fare questo bisogna creare comuni nomi e definizioni di dati per definire uno Shared Business Vocabulary (SBV). SBV dovrebbe essere definito e memorizzato in un glossario di business. • Standardizzazione dei dati usando un SBV • SBV, tassonomia e ontologia • Il ruolo di SBV nel Master Data Management, Reference Data Management, SOA, DW e Data Virtualisation • Approcci per creare un SBV • Enterprise Data Models e SBV • Prodotti di Business Glossay • Pianificare per un vocabolario di business • Organizzare le definizioni dei dati in un glossario di business • Coinvolgimento del business nella creazione di SBV • Usare i processi di Governance nella standardizzazione dei dati • Enterprise Data Modeling usando un SBV 4. Data Discovery, Data Quality Profiling, Cleansing e Integrazione Dopo aver definito i Vostri dati, in questa sessione vengono esaminati i nuovi passi nella metodologia di Data Governance, scoprendo dove si trovano i Vostri dati e come fare per tenerli sotto controllo. • Implementare in maniera sistematica Data Discovery e le relazioni fra dati • Tools di Data Discovery • Automated Data Mapping • Data Quality Profiling • Best Practices di metriche di Data Quality • Principali approcci all’integrazione dei dati: virtualizzazione dei dati, consolidamento dei dati, sincronizzazione dei dati • Generare Data Cleansing e servizi di integrazione usando i metadati • Imbrigliare i dati distribuiti usando Data Cleansing e Data Integration • La raffineria aziendale di dati: Hadoop come staging area per l’Enterprise Data Cleansing e Integration • Data Provisioning: rifornire con informazione consistente i Data Warehouses, i sistemi MDM, i DBMSs NoSQL e i sistemi transazionali • Fornire informazione consistente ai servizi informativi on-demand usando la virtualizzaione dei dati • Ottenere dati consistenti in una SOA • Data Management consistente attraverso i sistemi on-premise e Cloud • Data Entry: implementare un Enterprise Data Quality firewall • Data Quality alla tastiera • Data Quality nel messaging • Integrare Data Quality con Data Warehousing e MDM • Servizi di Data Quality on-demand o event-driven • Monitorare la Data Quality usando Dashboards • Gestire la Data Quality nel Cloud 5. Master Data Management: Design e Implementazione Questa sessione introduce il Mater Data Management. Esamina le componenti di un MDM e di un RDM e gli stili di implementazione. • Reference Data o Master Data • Cosa è il Mater Data Management • Perché MDM è necessario? • Componenti di una soluzione MDM • Come MDM si inserisce all’interno di una SOA? • Opzioni di implementazione di MDM • Identificare entità candidate • Capire la creazione e la manutenzione dei Master Data • Implementazione dei Master Data • Definire un SBV per entità di Master Data • Gestione gerarchica • Master Data Modeling • Data Discovery: identificare la locazione di Master Data disparati • Fare il mapping di Master Data disparati • Profiling dei Master Data disparati per capire la qualità dei dati • Creare entità sicure di Master Data usando Data Cleansing e Data Integration • Implementare la sincronizzazione di outbound Master Data • Identificare e ri-progettare Master Data Business Processes • Il mercato delle soluzioni MDM • Valutare prodotti MDM • Integrare soluzioni MDM con piattaforme di Data Management • Implementare MDM su Hadoop • NoSQL Graph DBMSs e MDM • Integrare MDM con gli Enterprise Portals • Condividere l’accesso ai Master Data attraverso servizi di Master Data in una SOA • Far leva sulla SOA per la sincronizzazione dei dati • Integrare MDM con le applicazioni operative e workflows del processo • Usare Master Data per il tag di contenuto non strutturato 6. Andare verso l’Enterprise MDM: il processo di Change Management Questa sessione esamina il compito più difficile: il processo di Change Management necessario per ottenere l’Enterprise Master Data Management. • Cominciare un programma di MDM Change Management • Cambiare il sistema di memorizzazione del sistema di data entry • Cambiare la logica applicativa per usare servizi condivisi di MDM • Cambiare le interfacce utente • Fa leva sulla tecnologia Portale per ridisegnare l’interfaccia utente • Far leva sulla SOA per accedere ai servizi condivisi MDM • Cambiare il lavoro di ETL per far leva sui Master Data • Gerarchia di Change Management nei sistemi MDM e BI • Andare da sistemi multipli di data entry a un sistema di data entry • Cambiare i processi di business esistenti per trarre vantaggio da MDM • Pianificare per un Change Management incrementale 7. Information Audit e Protezione: il lato trascurato della Data Governance Come si affronta questo problema? Le politiche di Data Privacy sono ovunque imposte? Come viene coordinato l’accesso sicuro ai dati attraverso portali, processi, applicazioni e dati? Questa sessione definisce questo problema e guarda ai requisiti necessari per fare l’Enterprise Data Audit e Protection ed esamina le tecnologie disponibili per integrare questo aspetto nella Vostra strategia di Data Governance. • Cosa è il Data Audit e Security? • Status check: dove siamo oggi a livello di Data Audit, access security e protection? • Quali sono i requisiti per Data Audit, access security e protection? • Cosa deve essere considerato quando trattiamo con il Data Audit e le sfide di sicurezza? • Cosa dire sugli utenti privilegiati? • Quali tecnologie sono disponibili per affrontare questo problema? • Come si integrano con i programmi di Data Governance? • Come cominciare per mettere in sicurezza e proteggere i Vostri dati? INFORMAZIONI Big Data e Analytics e 1300 (+iva) Enterprise Data Governance e Master Data Management e 1300 (+iva) La partecipazione ad entrambi i seminari viene offerta ad una speciale quota e 2500 (+iva) La quota di partecipazione comprende documentazione, colazioni di lavoro e coffee breaks. LUOGO Roma, Residenza di Ripetta Via di Ripetta, 231 DURATA ED ORARIO 2 giorni / 2 giorni: 9.30-13.00 14.00-17.00 È previsto il servizio di traduzione simultanea MODALITÀ D’ISCRIZIONE Il pagamento della quota, IVA inclusa, dovrà essere effettuato tramite bonifico, codice IBAN: IT 03 W 06230 03202 000057031348 Banca: Cariparma Agenzia 1 di Roma intestato alla Technology Transfer S.r.l. e la ricevuta di versamento inviata insieme alla scheda di iscrizione a: TECHNOLOGY TRANSFER S.r.l. Piazza Cavour, 3 00193 ROMA (Tel. 06-6832227 Fax 06-6871102) entro il 22 Maggio 2017 Vi consigliamo di far precedere la scheda d’iscrizione da una prenotazione telefonica. MIKE FERGUSON BIG DATA E ANALYTICS Roma 5-6 Giugno 2017 Residenza di Ripetta - Via di Ripetta, 231 Quota di iscrizione: e 1300 (+iva) ENTERPRISE DATA GOVERNANCE E MASTER DATA MANAGEMENT Roma 7-8 Giugno 2017 Residenza di Ripetta - Via di Ripetta, 231 Quota di iscrizione: e 1300 (+iva) ENTRAMBI I SEMINARI Quota di iscrizione per entrambi i seminari: e 2500 (+iva) In caso di rinuncia o di cancellazione dei seminari valgono le condizioni generali riportate all’interno. È previsto il servizio di traduzione simultanea CONDIZIONI GENERALI In caso di rinuncia con preavviso inferiore a 15 giorni verrà addebitato il 50% della quota di partecipazione, in caso di rinuncia con preavviso inferiore ad una settimana verrà addebitata l’intera quota. In caso di cancellazione del seminario, per qualsiasi causa, la responsabilità della Technology Transfer si intende limitata al rimborso delle quote di iscrizione già pervenute. SCONTI I partecipanti che si iscriveranno al seminario 30 giorni prima avranno uno sconto del 5%. Se un’azienda iscrive allo stesso evento 5 partecipanti, pagherà solo 4 partecipazioni. Gli sconti per lo stesso evento non sono cumulabili fra di loro. TUTELA DATI PERSONALI Ai sensi dell’art. 13 della legge n. 196/2003, il partecipante è informato che i suoi dati personali acquisiti tramite la scheda di partecipazione al seminario saranno trattati da Technology Transfer anche con l’ausilio di mezzi elettronici, con finalità riguardanti l’esecuzione degli obblighi derivati dalla Sua partecipazione al seminario, per finalità statistiche e per l’invio di materiale promozionale dell’attività di Technology Transfer. Il conferimento dei dati è facoltativo ma necessario per la partecipazione al seminario. Il titolare del trattamento dei dati è Technology Transfer, Piazza Cavour, 3 - 00193 Roma, nei cui confronti il partecipante può esercitare i diritti di cui all’art. 13 della legge n. 196/2003. ✂ QUOTA DI PARTECIPAZIONE nome ...................................................................... cognome ................................................................ funzione aziendale ................................................. azienda .................................................................. Timbro e firma partita iva ............................................................... codice fiscale ......................................................... indirizzo .................................................................. città ........................................................................ cap ......................................................................... provincia ................................................................ telefono .................................................................. fax .......................................................................... e-mail ..................................................................... Da restituire compilato a: Technology Transfer S.r.l. Piazza Cavour, 3 - 00193 Roma Tel. 06-6832227 - Fax 06-6871102 [email protected] www.technologytransfer.it DOCENTE Mike Ferguson è Managing Director Europeo di Intelligent Business Strategies Limited. Come consulente, è specializzato in sistemi database, Business Intelligence, Enterprise Application Integration, Corporate ed eBusiness Portals, soluzioni intelligenti di CRM e di Supply Chain. Ha più di 30 anni di esperienza nell’IT, ha operato consulenze per importanti aziende ed è stato frequentemente speaker in molti eventi e seminari in tutto il mondo. È stato Principal e co-fondatore della Codd & Date UK e Chief Architect alla NCR sul DBMS Teradata.