Progetti Big Data nell`ambito delle Analisi Fiscali
Transcript
Progetti Big Data nell`ambito delle Analisi Fiscali
Progetti Big Data nell’ambito delle Analisi Fiscali Chi è SOSE E’ una S.p.A. partecipata dal Ministero dell’Economia e Finanze (88%) e dalla Banca d’Italia (12%) Operativa dal 2002 Sede a Roma 140 dipendenti E’ il partner metodologico per realizzare: Studi di settore Analisi fiscali Fabbisogni standard per Comuni, Province e Regioni PANORAMICA DELL’ORGANIZZAZIONE STATISTICA COMPLESSA ICT ANALISI MICROECONOMICA SVILUPPO BUSINESS PANORAMICA DELL’ORGANIZZAZIONE TEAM ETÀ Meno di 35 anni 25% Line 48% 52% Staff Altri 75% SESSO SCOLARIZZAZIONE 15% 42% 58% Donne Laureati Uomini Diplomati 85% Big Data & ETL Archivi Agenzia delle Entrate Fonti Esterne Altri Archivi SOSE Metadati Big Data Cluster HADOOP (HBASE) (12 nodi) EDWSTG EDWPUB EDW_LOAD SERVIZI: Cleansing Standardizzazione Conformità Mascheramento EDW_PUB SERVIZI: Pubblicazione dati. Owner Dati DATA STORED: Data Mart Dati di dettaglio DATA STORED: Flat File Tabelle Relazionali EDW_GEO SERVIZI: Owner Dati Geo Spaziali DATA STORED: Star Schema Dashboard Analisi Statistica Output Data Discovery METADATI F_STD_PUB SERVIZI: Pubblicazione dati Federalismo EDW_ANON SERVIZI: Applicazione regole business Realizzazione Data Mart DATA STORED: Star Schema Altri Schema dedicati DATA STORED: Star Schema SERVIZI: Altre viste sui dati (6 TB) Analisi metodologica Visual Analytics Big Data & Hadoop & SNA HADOOP HDFS Clienti -> Fornitori 2 Nodi Virtuali: - 4 Processori - 4 GB Ram MAPREDUCE Fornitori -> Clienti • 7,2 GB di dati • Circa 5,4 milioni di nodi • Totale relazioni: 140 milioni Apache Giraph Processo di MapReducing Processo INPUT - Caricamento dati (archivi clienti e fornitori) su BigData (HDFS) Filtro sugli archivi e utilizzo dei campi Imponibile, Identificativo contribuente, Identificativo cliente/fornitore, individuazione delle relazioni univoche (MAPPING) Sorting delle relazioni più unione dei record con la stessa chiave (SHUFFLING) Sulle relazioni univoche vengono effettuate delle operazioni di aggregazione (REDUCING), es. sommando gli imponibili o aggregazione delle categorie ATECO Social Network – Attributi e Metrica n C D ( Pk ) = ∑ a ( pi , pk ) • Degree Centrality i =1 – Numero di connessioni dirette che un nodo possiede. E’ importante avere un numero molto alto di connessioni. – Nel nostro caso più è alto il numero di connessioni più è alto il numero di transazioni economiche (es. attività di tipo commerciale). – Il risultato deve essere confrontato con il totale degli imponibili per soggetto. – Questa può essere estesa ai grafi pesati, utilizzando la somma dei pesi delle relazioni. Social Network – Attributi e Metrica • Betweenness Centrality – Misura la strategicità di un nodo nella rete tra (between) due aree importanti della stessa. Un nodo con una elevata BC ha una grande influenza nel flusso di informazioni. – Ad es. il fornitore/cliente unico di una determinata categoria merceologica o unicità di presenza nel territorio. b a C d e f g h Risultati • Relazioni univoche tra codici Ateco, ogni relazione ripetuta è raggruppata ed eseguita la somma delle relative transazioni, la relazione viene intesa con una direzione specifica. • Il primo Ateco è relativo al Cliente, il secondo Ateco è relativo al fornitore: • Tempi: – Elaborazione eseguita in 6 min per 1 file di 7.12 GB con 147.000.000 record – Risultato 1 file di 15.89 MB con 840.000 record • Metriche calcolate: – In-Degree Out-Degree Page Rank • Componenti connesse (sottoreti) Map-Reduce (30 minuti) • Componenti connesse Giraph (10 minuti) Best Practices • Utilizzo di Hadoop per leggere e analizzare i file di dati. • Sviluppare algoritmi MapReduce (R o Java) per contare il numero di edges associati ad ogni nodo: – degree.V <- mapreduce(edge.list, map=function(k,v) keyval(v[2],1), reduce=function(k,v) keyval(k,length(v))) from.dfs(degree.V)[[1]] • Utilizzare R o Java con algoritmi SNA o dei Grafi per effettuare analisi sui risultati ottenuti dal MapReducing Bibliografia e strumenti http://www.cloudera.com http://hadoop.apache.org/ http://graphstream-project.org/ http://thinkaurelius.com/blog/ http://blog.piccolboni.info/ http://www.revolutionanalytics.com/ http://mahout.apache.org/ http://www.neo4j.org/ Social Network Analysis Utilizing Big Data Technology Jonathan Magnusson – Uppsala University • Analisi della Dinamica della Centralità Commerciale Italiana – Andrea Accatoli • • • • • • • • •