Analisi dei dati e business intelligence White Paper

Transcript

Analisi dei dati e business intelligence White Paper
Analisi dei dati e business intelligence
Analisi multidimensionale dei dati, cruscotti aziendali, datawarehousing, tecniche OLAP
Un approccio innovativo basato su tecnologie Open Source
White Paper
1. INTRODUZIONE ............................................................................... 2
2. TECNOLOGIE SOFTWARE IMPIEGATE ......................................... 3
3. APPROCCIO PROGETTUALE ....................................................... 10
3. RISULTATI ...................................................................................... 10
asint s.r.l.
Sede legale:
via Marina Vecchia 96/5
54100 Massa (MS)
Direzione e uffici:
Sede operativa:
Capitale sociale 10.000,00 I.V.
via Massa Avenza 22
via del Villaggio 11/13
REA Massa n° 113669
54100 Massa (MS)
59013 Montemurlo (PO)
P. Iva 01107360453
tel. 0585 256070
tel. 0574 651521
fax 0574 658280
www.asint.it
fax 0585 255521
[email protected]
1. INTRODUZIONE
In un contesto produttivo sempre più caratterizzato dalla disponibilità di notevoli moli di dati, diventa un
elemento di rilevante valore strategico la capacità di saper estrapolare dai dati disponibili quante più
informazioni significative per la conduzione del proprio business.
Il valore dei dati di un'impresa dipende fortemente dalla possibilità di poterne fruire per un'analisi adeguata.
Spesso è necessario integrare fonti di dati eterogenee e trasformare i dati in 'informazione'.
Un sistema di Business Intelligence fornisce gli strumenti di analisi multidimensionale OLAP (OnLine Analytical
Processing) per offrire diverse prospettive di analisi, grazie alle quali con semplici "click" del mouse, si hanno
risposte immediate a domande anche complesse, come:
¾
¾
¾
¾
¾
¾
¾
quali prodotti si stanno vendendo meglio ?
quali clienti danno il miglior profitto (margini più alti)?
quali linee di prodotti offrono la migliore redditività ?
dove (provincia, regione, area) e come (canali) si vendono i nuovi prodotti (volu?
dove (in che voci di spesa) possiamo recuperare l'incremento di costi?
quali ricavi e che risultato operativo avremo a fine anno?
con questo trend delle vendite che risultato avremo il prossimo anno?
Le funzioni OLAP consentono di modellare la navigazione all’interno della base di dati (datawarehouse). Oggetto
delle decisioni dell’utente sono la scelta delle dimensioni in base alle quali costruire gli ipercubi OLAP contenenti
i dati di interesse e il livello di dettaglio al quale poterli consultare.
Un sistema di Business Intelligence basato su un datawarehouse consente di realizzare:
9
9
9
Query ad hoc ed Analisi interattive (OLAP):
per accedere alle informazioni di interesse, navigare,
confrontare i dati fra loro, valutare le informazioni nel loro contesto
Cruscotti aziendali: per fornire valori di sintesi e valutare il funzionamento dell'azienda e dei diversi settori.
Reporting e Distribuzione delle informazioni: per di distribuire le informazioni rilevanti a tutti i destinatari.
Il presente documento illustra la soluzione proposta da Asint s.r.l. per l’implementazione di un sistema di analisi
dei dati e business intelligence (B.I.) mediante la realizzazione di un datawarehouse.
Il sistema basato su applicazioni Open Source, consente la raccolta di dati provenienti da differenti contesti
applicativi di organizzare le informazioni in un database al fine di poter pervenire ad una analisi dei fenomeni
aziendali attraverso l’utilizzo di una interfaccia grafica basata su navigazione ipertestuale.
Il tutto, dati e criteri per la loro interpretazione, fruibile in modo semplice, razionale e controllato, attraverso
una Intranet aziendale, da tutto il personale autorizzato che potrà accedere al sistema mediante l’utilizzo di un
web-browser.
Le tecnologie Open Source sono sempre più diffuse ed utilizzate come componenti fondamentali delle
infrastrutture IT in tutto il mondo1.
Una parte preponderante del costo del possesso di una soluzione di B.I. è dato dal costo di acquisto delle
licenze per i prodotti software necessari: l'utilizzo di software Open Source consente di evitare costi per le
licenze e relativi problemi di gestione.
Gartner predice che nel 2007 oltre il 50% dei progetti di datawarehouse avranno un'accettazione limitata, o
falliranno, come risultato di una mancanza di attenzione al tema della qualità dei dati. Molte organizzazioni
non riescono a percepire di avere un problema di questo tipo, e si focalizzano su altri elementi. Si evidenzia
quindi la necessità di indirizzare le tematiche relative alla qualità dei dati "La consistenza e l'accuratezza dei
dati rimane responsabilità dei dipartimenti di business che operano sui sistemi, non solo dell'area IT” .
Il successo dell'introduzione in azienda di una soluzione di B.I. dipende in gran parte dalla qualità dei dati e
dalla capacità di analisi dell’impianto dati e competenza con cui sono svolte le attività di selezione delle
informazioni da considerare: l'azzeramento dei costi per le licenze software consente di concentrare gli
investimenti nella messa a regime del sistema e nella sua integrazione ottimale nella operatività aziendale.
1
Tra le tecnologie OpenSource più diffuse al mondo vi sono i sistemi operativi Linux, il web server Apache, il directory server OpenLDAP, il PHP per
le applicazioni web, i database MySQL e PostgreSQL, i server DNS Bind per la risoluzione dei nomi di dominio, i server di posta SendMail.
2. TECNOLOGIE SOFTWARE IMPIEGATE
Le tecnologie software impiegate sono basate sul modello Open Source ed utilizzano il contratti di licenza di tipo GPL (General
Public License) che consentono di poter usare, copiare, vendere, ed anche modificare un software senza dover pagare diritti o
concessioni di licenza.
Le regole di Open Source sono semplici, e si presentano all’apparenza come una carta dei diritti dell’utente del software:
1) l’utente ha il diritto di accesso al codice originale e completo del software che utilizza;
2) ha il diritto di modificare il software, anche per creare nuovi programmi;
3) ha il diritto di fare copie del programma originale e di distribuirle, anche a pagamento.
Una regola accessoria ma essenziale è che la licenza di Open Source si estende al nuovo software che viene in questo modo
creato.
Un ulteriore vantaggio del modello Open Source è che lo sviluppo ed il testing dei software utilizzati è assicurato da una vasta
comunità di programmatori sparsi in tutto il mondo.
Le principali tecnologie software impiegate sono le seguenti:
MySQL: è un Database management system relazionale2, considerato il database open source più popolare nel mondo,
disponibile sia per sistemi Unix che Windows. Il codice di MySQL è di proprietà della omonima società (http://www.mysql.com) e
distribuito con licenza GNU GPL.
Apache: è la piattaforma server web Open Source più diffusa nel mondo (circa il 70% dei web server del mondo utilizza
Apache) prodotta dall'Apache Software Foundation (http://www.apache.org).
PHP: è un linguaggio di programmazione (http://www.php.net) che consente agli sviluppatori web di realizzare in modo veloce
pagine dinamiche. I programmi scritti in linguaggio PHP, denominati script, vengono eseguiti tramite un apposito software,
l'"interprete" PHP. Semplice e potente, il linguaggio PHP rappresenta la soluzione ideale ad una vastissima gamma di esigenze,
come indiscutibilmente dimostrato, del resto, dalla sua crescente popolarità e dal sempre maggiore numero di applicazioni
Internet/intranet basate su di esso (Nel gennaio 2005 è stato insignito del titolo di "Programming Language of 2004" dal TIOBE
Programming Community Index).
Jakarta-Tomcat: è un application server basato su linguaggio di programmazione Java che consente agli
sviluppatori di realizzare in modo veloce programmi multipiattaforma, object oriented. Il linguaggio Java
costituisce la base di tutto l’ambiente jakarta sia nella creazione di oggetti, denominati script JSP, che vengono
eseguiti dall’AP sia nella definizione di tutte le componenti software che necessitino programmi robusti e sicuri.
Java inoltre rappresenta uno standard commerciale di indubbia leadership rappresentando la soluzione ideale
ad una vastissima gamma di esigenze,come indiscutibilmente dimostrato, del resto, dalla sua crescente
popolarità e dal sempre maggiore numero di applicazioni Internet/intranet basate su di esso.
Mondrian: è un applicativo Open Source scritto in JSP che consente di classificare e definire delle vere e
proprie regole di interpretazione delle i quanto presente nei database: Mondrian di fatto è il modello ed il
motore atto a dare una rappresentazione “analitica” dei dati
Jpivot: è un applicativo Open Source scritto in JSP che consente di presentare in formato web-browser
all’utente finale i risultati delle ‘interrogazioni (siano esse esplicite o implicite )che quest’ultimo effettua
interagendo con il sistema
Descrizione delle principali funzionalità dell’infrastruttura nel suo complesso.
Le principali funzionalità dei prodotti indicati disponibili nelle release correnti sono le seguenti:
•
•
•
•
•
•
2
Interfaccia utente semplice e chiara
Interfaccia di amministrazione di facile utilizzo
Agevole accesso ai documenti da qualsiasi computer mediante web browser
Accesso riservato e sicuro al sistema
Generazione di differenti modelli di business: vendite & marketing, Controllo di gestione, Produzione
Export dei risultati in formato pdf o excel
Oltre ai database Open Source MySQL e PostgreSQL, è possibile utilizzare database proprietari quali Oracle, Microsoft SQL Server 2000, Access ...
•
•
Rappresentazione grafica dei dati interattiva e personalizzabile
Definizione e generazione di report
Nel seguito sono riportati alcuni “screenshot” per illustrare le caratteristiche principali dell’interfaccia.
Il sistema è “navigabile” come una normale pagina web e quando si accede inizialmente viene una “home”
dalla quale si possono eseguire una serie di query preimpostate, il cui risultato ad esempio può dare luogo alla
seguente visualizzazione
Da questa immagine che rappresenta un’interrogazione su dati gestionali sintetizzata al massimo livello,
l’utente può decidere di approfondire alcuni aspetti “facendo drill down” cioè un semplice click con il mouse ed
ottenendo la successiva visualizzazione
Ripetendo l’operazione è possibile esplodere la tabella fino al livello di dettaglio desiderato.
E’ possibile attraverso l’uso delle funzioni presenti nell’interfaccia rifinire l’interrogazione su alcuni dati che si
vogliono confrontare e, in tempo reale richiedere la realizzazione grafica dei valori prodotti a video.
Le proprietà della rappresentazione possono essere modificate a piacimento dall’utente.
Le colonne dei valori esposti dalle query (measures) possono essere modificate a piacimento
Ed è anche possibile, ovviamente in tempo reale richiedere la traslazione degli assi, in modo da invertire le
righe con le colonne
Un ultimo esempio vuole rappresentare una analisi fatta solo su alcuni prodotti (i vini di una specifica casa
produttrice) che sono stati acquisitati dai clienti dotati di Fidelity card
E’ inoltre possibile effettuare operazioni di esportazione dei dati in formato excel per successive rielaborazioni
Architettura dell’Intranet Server
Mediante l’utilizzo dei software MySQL, Apache, Tomkat , Mondrian e Jpivot, può essere realizzato un “intranet server” che
consentirà l’accesso ai dati memorizzati nel database MySQL mediante l’utilizzo di un web-browser (ad es. Explorer).
Sono possibili diverse architetture di cui riportiamo due esempi:
Configurazione base: solo accesso intranet
Configurazione per consentire l’accesso anche da Internet
Rete ethernet aziendale
Rete ethernet aziendale
Firewall
Web server su cui
sono installati :
Intranet server su
cui sono installati:
Database server
Apache/Tomcat
Mondrian/Jpivot
Apache/Tomkat
Motore DB
Mondrian/Jpivot
Router
Internet
3. APPROCCIO PROGETTUALE
Asint s.r.l. fornisce il supporto tecnico e consulenziale specialistico finalizzato alla implementazione,
all’avviamento e all’utilizzo a regime del sistema.
L’esecuzione progettuale è articolata nelle seguenti fasi:
Fase 1: Analisi
In questa fase vengono analizzate le esigenze dell’organizzazione rispetto alla gestione dei dati in termini di
risultati attesi, mediante una attività così articolata:
•
Analisi delle procedure di gestione attuali
•
Analisi dei dati prodotti dal procedure in gestionelle necessità
•
Analisi dell’architettura della rete aziendale
Lo scopo di questa fase e’ di avere una conoscenza dettagliata della organizzazione e delle necessità
dell’azienda rispetto alla gestione delle informazioni “caratterisriche” per poter identificare la perseguibiltà dei
requisiti di progetti posti dal cliente.
Fase 2: Definizione del modello dei dati e dei parametri di configurazione
In questa fase si definiscono i requisiti legati in particolare modello dei dati ed le specifiche di configurazione
delle procedure di caricamento e sincronia; tale fase è così articolata:
•
Analisi dei requisiti
•
Costruzione del modello logico dei dati
•
Implementazione dello schema di datawarehouse
•
Definizione delle specifiche e dei vincoli di caricamento
•
Definizione dei criteri e modalità di backup dei dati
Alla fine di questa fase saranno disponibili:
•
•
la documentazione tecnica (requisiti, diagrammi di struttura, etc.) del sistema da implementare
le specifiche funzionali e di deployment per la configurazione del sistema
Fase 3: Implementazione ed avviamento del sistema
In questa fase viene effettuato l’avviamento e l’implementazione del sistema in azienda.
Sono previste le seguenti attività:
•
Installazione e configurazione iniziale del sistema (hardware e software
•
Creazione di database, tabelle, query etc
•
Realizzazione delle procedure ETL3
•
Realizzazione delle query MDX per il funzionamento di base della sezione interattiva
•
Formazione del personale ed avviamento del sistema in azienda
Fase 4: Assistenza all’operatività del sistema
In questa fase viene fornita assistenza all’utilizzo del sistema attraverso un contratto di assistenza annuale
comprendente:
•
Assistenza sistemistica finalizzata al supporto della infrastruttura hardware/software
•
Assistenza consulenziale per il supporto all’utilizzo del sistema
•
Realizzazione della reportistica di esercizio
3. RISULTATI
Alla conclusione del progetto l’azienda disporrà di:
•
•
•
•
3
possibilità di accedere al sistema di B.I. internet dall’esterno tramite collegamenti in VPN
un archivio delle informazioni storiche aziendali costruito sulla base di specifici eventi gestionali
piena disponibilità del codice sorgente con cui è realizzato l’applicativo (mondrian e jpivot) e conseguente
possibilità di realizzare qualsiasi tipo di integrazione e personalizzazione.
un servizio di assistenza tecnica per il supporto di tutte le problematiche sistemistiche relative all’intranet
server e di assistenza consulenziale per il supporto all’operatività del sistema di B.I.
Le procedure ETL sono constituite dagli agenti di caricamento della base dati