Analisi dei dati e business intelligence White Paper
Transcript
Analisi dei dati e business intelligence White Paper
Analisi dei dati e business intelligence Analisi multidimensionale dei dati, cruscotti aziendali, datawarehousing, tecniche OLAP Un approccio innovativo basato su tecnologie Open Source White Paper 1. INTRODUZIONE ............................................................................... 2 2. TECNOLOGIE SOFTWARE IMPIEGATE ......................................... 3 3. APPROCCIO PROGETTUALE ....................................................... 10 3. RISULTATI ...................................................................................... 10 asint s.r.l. Sede legale: via Marina Vecchia 96/5 54100 Massa (MS) Direzione e uffici: Sede operativa: Capitale sociale 10.000,00 I.V. via Massa Avenza 22 via del Villaggio 11/13 REA Massa n° 113669 54100 Massa (MS) 59013 Montemurlo (PO) P. Iva 01107360453 tel. 0585 256070 tel. 0574 651521 fax 0574 658280 www.asint.it fax 0585 255521 [email protected] 1. INTRODUZIONE In un contesto produttivo sempre più caratterizzato dalla disponibilità di notevoli moli di dati, diventa un elemento di rilevante valore strategico la capacità di saper estrapolare dai dati disponibili quante più informazioni significative per la conduzione del proprio business. Il valore dei dati di un'impresa dipende fortemente dalla possibilità di poterne fruire per un'analisi adeguata. Spesso è necessario integrare fonti di dati eterogenee e trasformare i dati in 'informazione'. Un sistema di Business Intelligence fornisce gli strumenti di analisi multidimensionale OLAP (OnLine Analytical Processing) per offrire diverse prospettive di analisi, grazie alle quali con semplici "click" del mouse, si hanno risposte immediate a domande anche complesse, come: ¾ ¾ ¾ ¾ ¾ ¾ ¾ quali prodotti si stanno vendendo meglio ? quali clienti danno il miglior profitto (margini più alti)? quali linee di prodotti offrono la migliore redditività ? dove (provincia, regione, area) e come (canali) si vendono i nuovi prodotti (volu? dove (in che voci di spesa) possiamo recuperare l'incremento di costi? quali ricavi e che risultato operativo avremo a fine anno? con questo trend delle vendite che risultato avremo il prossimo anno? Le funzioni OLAP consentono di modellare la navigazione all’interno della base di dati (datawarehouse). Oggetto delle decisioni dell’utente sono la scelta delle dimensioni in base alle quali costruire gli ipercubi OLAP contenenti i dati di interesse e il livello di dettaglio al quale poterli consultare. Un sistema di Business Intelligence basato su un datawarehouse consente di realizzare: 9 9 9 Query ad hoc ed Analisi interattive (OLAP): per accedere alle informazioni di interesse, navigare, confrontare i dati fra loro, valutare le informazioni nel loro contesto Cruscotti aziendali: per fornire valori di sintesi e valutare il funzionamento dell'azienda e dei diversi settori. Reporting e Distribuzione delle informazioni: per di distribuire le informazioni rilevanti a tutti i destinatari. Il presente documento illustra la soluzione proposta da Asint s.r.l. per l’implementazione di un sistema di analisi dei dati e business intelligence (B.I.) mediante la realizzazione di un datawarehouse. Il sistema basato su applicazioni Open Source, consente la raccolta di dati provenienti da differenti contesti applicativi di organizzare le informazioni in un database al fine di poter pervenire ad una analisi dei fenomeni aziendali attraverso l’utilizzo di una interfaccia grafica basata su navigazione ipertestuale. Il tutto, dati e criteri per la loro interpretazione, fruibile in modo semplice, razionale e controllato, attraverso una Intranet aziendale, da tutto il personale autorizzato che potrà accedere al sistema mediante l’utilizzo di un web-browser. Le tecnologie Open Source sono sempre più diffuse ed utilizzate come componenti fondamentali delle infrastrutture IT in tutto il mondo1. Una parte preponderante del costo del possesso di una soluzione di B.I. è dato dal costo di acquisto delle licenze per i prodotti software necessari: l'utilizzo di software Open Source consente di evitare costi per le licenze e relativi problemi di gestione. Gartner predice che nel 2007 oltre il 50% dei progetti di datawarehouse avranno un'accettazione limitata, o falliranno, come risultato di una mancanza di attenzione al tema della qualità dei dati. Molte organizzazioni non riescono a percepire di avere un problema di questo tipo, e si focalizzano su altri elementi. Si evidenzia quindi la necessità di indirizzare le tematiche relative alla qualità dei dati "La consistenza e l'accuratezza dei dati rimane responsabilità dei dipartimenti di business che operano sui sistemi, non solo dell'area IT” . Il successo dell'introduzione in azienda di una soluzione di B.I. dipende in gran parte dalla qualità dei dati e dalla capacità di analisi dell’impianto dati e competenza con cui sono svolte le attività di selezione delle informazioni da considerare: l'azzeramento dei costi per le licenze software consente di concentrare gli investimenti nella messa a regime del sistema e nella sua integrazione ottimale nella operatività aziendale. 1 Tra le tecnologie OpenSource più diffuse al mondo vi sono i sistemi operativi Linux, il web server Apache, il directory server OpenLDAP, il PHP per le applicazioni web, i database MySQL e PostgreSQL, i server DNS Bind per la risoluzione dei nomi di dominio, i server di posta SendMail. 2. TECNOLOGIE SOFTWARE IMPIEGATE Le tecnologie software impiegate sono basate sul modello Open Source ed utilizzano il contratti di licenza di tipo GPL (General Public License) che consentono di poter usare, copiare, vendere, ed anche modificare un software senza dover pagare diritti o concessioni di licenza. Le regole di Open Source sono semplici, e si presentano all’apparenza come una carta dei diritti dell’utente del software: 1) l’utente ha il diritto di accesso al codice originale e completo del software che utilizza; 2) ha il diritto di modificare il software, anche per creare nuovi programmi; 3) ha il diritto di fare copie del programma originale e di distribuirle, anche a pagamento. Una regola accessoria ma essenziale è che la licenza di Open Source si estende al nuovo software che viene in questo modo creato. Un ulteriore vantaggio del modello Open Source è che lo sviluppo ed il testing dei software utilizzati è assicurato da una vasta comunità di programmatori sparsi in tutto il mondo. Le principali tecnologie software impiegate sono le seguenti: MySQL: è un Database management system relazionale2, considerato il database open source più popolare nel mondo, disponibile sia per sistemi Unix che Windows. Il codice di MySQL è di proprietà della omonima società (http://www.mysql.com) e distribuito con licenza GNU GPL. Apache: è la piattaforma server web Open Source più diffusa nel mondo (circa il 70% dei web server del mondo utilizza Apache) prodotta dall'Apache Software Foundation (http://www.apache.org). PHP: è un linguaggio di programmazione (http://www.php.net) che consente agli sviluppatori web di realizzare in modo veloce pagine dinamiche. I programmi scritti in linguaggio PHP, denominati script, vengono eseguiti tramite un apposito software, l'"interprete" PHP. Semplice e potente, il linguaggio PHP rappresenta la soluzione ideale ad una vastissima gamma di esigenze, come indiscutibilmente dimostrato, del resto, dalla sua crescente popolarità e dal sempre maggiore numero di applicazioni Internet/intranet basate su di esso (Nel gennaio 2005 è stato insignito del titolo di "Programming Language of 2004" dal TIOBE Programming Community Index). Jakarta-Tomcat: è un application server basato su linguaggio di programmazione Java che consente agli sviluppatori di realizzare in modo veloce programmi multipiattaforma, object oriented. Il linguaggio Java costituisce la base di tutto l’ambiente jakarta sia nella creazione di oggetti, denominati script JSP, che vengono eseguiti dall’AP sia nella definizione di tutte le componenti software che necessitino programmi robusti e sicuri. Java inoltre rappresenta uno standard commerciale di indubbia leadership rappresentando la soluzione ideale ad una vastissima gamma di esigenze,come indiscutibilmente dimostrato, del resto, dalla sua crescente popolarità e dal sempre maggiore numero di applicazioni Internet/intranet basate su di esso. Mondrian: è un applicativo Open Source scritto in JSP che consente di classificare e definire delle vere e proprie regole di interpretazione delle i quanto presente nei database: Mondrian di fatto è il modello ed il motore atto a dare una rappresentazione “analitica” dei dati Jpivot: è un applicativo Open Source scritto in JSP che consente di presentare in formato web-browser all’utente finale i risultati delle ‘interrogazioni (siano esse esplicite o implicite )che quest’ultimo effettua interagendo con il sistema Descrizione delle principali funzionalità dell’infrastruttura nel suo complesso. Le principali funzionalità dei prodotti indicati disponibili nelle release correnti sono le seguenti: • • • • • • 2 Interfaccia utente semplice e chiara Interfaccia di amministrazione di facile utilizzo Agevole accesso ai documenti da qualsiasi computer mediante web browser Accesso riservato e sicuro al sistema Generazione di differenti modelli di business: vendite & marketing, Controllo di gestione, Produzione Export dei risultati in formato pdf o excel Oltre ai database Open Source MySQL e PostgreSQL, è possibile utilizzare database proprietari quali Oracle, Microsoft SQL Server 2000, Access ... • • Rappresentazione grafica dei dati interattiva e personalizzabile Definizione e generazione di report Nel seguito sono riportati alcuni “screenshot” per illustrare le caratteristiche principali dell’interfaccia. Il sistema è “navigabile” come una normale pagina web e quando si accede inizialmente viene una “home” dalla quale si possono eseguire una serie di query preimpostate, il cui risultato ad esempio può dare luogo alla seguente visualizzazione Da questa immagine che rappresenta un’interrogazione su dati gestionali sintetizzata al massimo livello, l’utente può decidere di approfondire alcuni aspetti “facendo drill down” cioè un semplice click con il mouse ed ottenendo la successiva visualizzazione Ripetendo l’operazione è possibile esplodere la tabella fino al livello di dettaglio desiderato. E’ possibile attraverso l’uso delle funzioni presenti nell’interfaccia rifinire l’interrogazione su alcuni dati che si vogliono confrontare e, in tempo reale richiedere la realizzazione grafica dei valori prodotti a video. Le proprietà della rappresentazione possono essere modificate a piacimento dall’utente. Le colonne dei valori esposti dalle query (measures) possono essere modificate a piacimento Ed è anche possibile, ovviamente in tempo reale richiedere la traslazione degli assi, in modo da invertire le righe con le colonne Un ultimo esempio vuole rappresentare una analisi fatta solo su alcuni prodotti (i vini di una specifica casa produttrice) che sono stati acquisitati dai clienti dotati di Fidelity card E’ inoltre possibile effettuare operazioni di esportazione dei dati in formato excel per successive rielaborazioni Architettura dell’Intranet Server Mediante l’utilizzo dei software MySQL, Apache, Tomkat , Mondrian e Jpivot, può essere realizzato un “intranet server” che consentirà l’accesso ai dati memorizzati nel database MySQL mediante l’utilizzo di un web-browser (ad es. Explorer). Sono possibili diverse architetture di cui riportiamo due esempi: Configurazione base: solo accesso intranet Configurazione per consentire l’accesso anche da Internet Rete ethernet aziendale Rete ethernet aziendale Firewall Web server su cui sono installati : Intranet server su cui sono installati: Database server Apache/Tomcat Mondrian/Jpivot Apache/Tomkat Motore DB Mondrian/Jpivot Router Internet 3. APPROCCIO PROGETTUALE Asint s.r.l. fornisce il supporto tecnico e consulenziale specialistico finalizzato alla implementazione, all’avviamento e all’utilizzo a regime del sistema. L’esecuzione progettuale è articolata nelle seguenti fasi: Fase 1: Analisi In questa fase vengono analizzate le esigenze dell’organizzazione rispetto alla gestione dei dati in termini di risultati attesi, mediante una attività così articolata: • Analisi delle procedure di gestione attuali • Analisi dei dati prodotti dal procedure in gestionelle necessità • Analisi dell’architettura della rete aziendale Lo scopo di questa fase e’ di avere una conoscenza dettagliata della organizzazione e delle necessità dell’azienda rispetto alla gestione delle informazioni “caratterisriche” per poter identificare la perseguibiltà dei requisiti di progetti posti dal cliente. Fase 2: Definizione del modello dei dati e dei parametri di configurazione In questa fase si definiscono i requisiti legati in particolare modello dei dati ed le specifiche di configurazione delle procedure di caricamento e sincronia; tale fase è così articolata: • Analisi dei requisiti • Costruzione del modello logico dei dati • Implementazione dello schema di datawarehouse • Definizione delle specifiche e dei vincoli di caricamento • Definizione dei criteri e modalità di backup dei dati Alla fine di questa fase saranno disponibili: • • la documentazione tecnica (requisiti, diagrammi di struttura, etc.) del sistema da implementare le specifiche funzionali e di deployment per la configurazione del sistema Fase 3: Implementazione ed avviamento del sistema In questa fase viene effettuato l’avviamento e l’implementazione del sistema in azienda. Sono previste le seguenti attività: • Installazione e configurazione iniziale del sistema (hardware e software • Creazione di database, tabelle, query etc • Realizzazione delle procedure ETL3 • Realizzazione delle query MDX per il funzionamento di base della sezione interattiva • Formazione del personale ed avviamento del sistema in azienda Fase 4: Assistenza all’operatività del sistema In questa fase viene fornita assistenza all’utilizzo del sistema attraverso un contratto di assistenza annuale comprendente: • Assistenza sistemistica finalizzata al supporto della infrastruttura hardware/software • Assistenza consulenziale per il supporto all’utilizzo del sistema • Realizzazione della reportistica di esercizio 3. RISULTATI Alla conclusione del progetto l’azienda disporrà di: • • • • 3 possibilità di accedere al sistema di B.I. internet dall’esterno tramite collegamenti in VPN un archivio delle informazioni storiche aziendali costruito sulla base di specifici eventi gestionali piena disponibilità del codice sorgente con cui è realizzato l’applicativo (mondrian e jpivot) e conseguente possibilità di realizzare qualsiasi tipo di integrazione e personalizzazione. un servizio di assistenza tecnica per il supporto di tutte le problematiche sistemistiche relative all’intranet server e di assistenza consulenziale per il supporto all’operatività del sistema di B.I. Le procedure ETL sono constituite dagli agenti di caricamento della base dati