Progetti Big Data nell`ambito delle Analisi Fiscali

Transcript

Progetti Big Data nell`ambito delle Analisi Fiscali
Progetti Big Data nell’ambito delle
Analisi Fiscali
Chi è SOSE
E’ una S.p.A. partecipata dal
Ministero dell’Economia e Finanze
(88%) e dalla Banca d’Italia (12%)
Operativa dal 2002
Sede a Roma
140 dipendenti
E’ il partner metodologico per realizzare:
Studi di settore
Analisi fiscali
Fabbisogni standard per Comuni, Province e Regioni
PANORAMICA DELL’ORGANIZZAZIONE
STATISTICA
COMPLESSA
ICT
ANALISI
MICROECONOMICA
SVILUPPO
BUSINESS
PANORAMICA DELL’ORGANIZZAZIONE
TEAM
ETÀ
Meno di
35 anni
25%
Line
48%
52%
Staff
Altri
75%
SESSO
SCOLARIZZAZIONE
15%
42%
58%
Donne
Laureati
Uomini
Diplomati
85%
Big Data & ETL
Archivi Agenzia
delle Entrate
Fonti Esterne
Altri Archivi
SOSE
Metadati
Big Data
Cluster
HADOOP
(HBASE)
(12 nodi)
EDWSTG
EDWPUB
EDW_LOAD
SERVIZI:
Cleansing
Standardizzazione
Conformità
Mascheramento
EDW_PUB
SERVIZI:
Pubblicazione dati. Owner
Dati
DATA STORED:
Data Mart
Dati di dettaglio
DATA STORED:
Flat File
Tabelle Relazionali
EDW_GEO
SERVIZI:
Owner Dati Geo Spaziali
DATA STORED:
Star Schema
Dashboard
Analisi
Statistica
Output
Data
Discovery
METADATI
F_STD_PUB
SERVIZI:
Pubblicazione dati
Federalismo
EDW_ANON
SERVIZI:
Applicazione regole
business
Realizzazione Data Mart
DATA STORED:
Star Schema
Altri Schema dedicati
DATA STORED:
Star Schema
SERVIZI:
Altre viste sui dati
(6 TB)
Analisi
metodologica
Visual
Analytics
Big Data & Hadoop & SNA
HADOOP
HDFS
Clienti
->
Fornitori
2 Nodi Virtuali:
- 4 Processori
- 4 GB Ram
MAPREDUCE
Fornitori
->
Clienti
• 7,2 GB di dati
• Circa 5,4 milioni
di nodi
• Totale relazioni:
140 milioni
Apache Giraph
Processo di MapReducing
Processo
INPUT - Caricamento dati (archivi clienti e fornitori) su
BigData (HDFS)
Filtro sugli archivi e utilizzo dei campi Imponibile,
Identificativo contribuente, Identificativo cliente/fornitore,
individuazione delle relazioni univoche (MAPPING)
Sorting delle relazioni più unione dei record con la stessa
chiave (SHUFFLING)
Sulle relazioni univoche vengono effettuate delle
operazioni di aggregazione (REDUCING), es. sommando
gli imponibili o aggregazione delle categorie ATECO
Social Network – Attributi e Metrica
n
C D ( Pk ) = ∑ a ( pi , pk )
• Degree Centrality
i =1
– Numero di connessioni dirette che un nodo possiede. E’ importante
avere un numero molto alto di connessioni.
– Nel nostro caso più è alto il numero di connessioni più è alto il numero di
transazioni economiche (es. attività di tipo commerciale).
– Il risultato deve essere confrontato con il totale degli imponibili per
soggetto.
– Questa può essere estesa ai grafi pesati, utilizzando la somma dei pesi
delle relazioni.
Social Network – Attributi e Metrica
• Betweenness Centrality
– Misura la strategicità di un nodo nella rete tra (between) due
aree importanti della stessa. Un nodo con una elevata BC ha
una grande influenza nel flusso di informazioni.
– Ad es. il fornitore/cliente unico di una determinata categoria
merceologica o unicità di presenza nel territorio.
b
a
C d e f g h
Risultati
• Relazioni univoche tra codici Ateco, ogni relazione ripetuta
è raggruppata ed eseguita la somma delle relative
transazioni, la relazione viene intesa con una direzione
specifica.
• Il primo Ateco è relativo al Cliente, il secondo Ateco è
relativo al fornitore:
• Tempi:
– Elaborazione eseguita in 6 min per 1 file di 7.12 GB con
147.000.000 record
– Risultato 1 file di 15.89 MB con 840.000 record
• Metriche calcolate:
– In-Degree Out-Degree Page Rank
• Componenti connesse (sottoreti) Map-Reduce (30 minuti)
• Componenti connesse Giraph (10 minuti)
Best Practices
• Utilizzo di Hadoop per leggere e analizzare i file di
dati.
• Sviluppare algoritmi MapReduce (R o Java) per
contare il numero di edges associati ad ogni
nodo:
– degree.V <- mapreduce(edge.list, map=function(k,v)
keyval(v[2],1), reduce=function(k,v)
keyval(k,length(v))) from.dfs(degree.V)[[1]]
• Utilizzare R o Java con algoritmi SNA o dei Grafi
per effettuare analisi sui risultati ottenuti dal
MapReducing
Bibliografia e strumenti
http://www.cloudera.com
http://hadoop.apache.org/
http://graphstream-project.org/
http://thinkaurelius.com/blog/
http://blog.piccolboni.info/
http://www.revolutionanalytics.com/
http://mahout.apache.org/
http://www.neo4j.org/
Social Network Analysis Utilizing Big Data Technology Jonathan Magnusson – Uppsala University
• Analisi della Dinamica della Centralità Commerciale Italiana
– Andrea Accatoli
•
•
•
•
•
•
•
•
•