01_2014_L`ultimo capitolo della storia del data

Transcript

01_2014_L`ultimo capitolo della storia del data
N. 01/ giugno 2014
Bicocca Training Lab White Paper
L’Ultimo capitolo della storia del datadriven: the Big Data
Matteo Bottazzi
Twitter: @bicocca_btdc
E-mail: [email protected]
Bicocca Training&Development Centre
http://btdc.albaproject.it/
L’Ultimo Capitolo della storia del Data-Driven: the Big Data
Matteo Bottazzi
Sommario
L’ultimo capitolo della storia del data-driven: the Big Data ...............................2 IBM, Teradata, EMC. Tre nomi, tre definizioni, un solo soggetto: Big
Data...............................................................................................................3 Ancora parlando di Big Data: dall’Internet of Things all’Internet of
People and Things. .........................................................................................5 America Football College League: un Tweet Sbagliato può valere la
sconfitta.........................................................................................................6 Tra filosofia, società e cyberspazio. Capire i dati prima di assicurarli. ...............8 Ripensare la sicurezza informatica partendo dalle basi. ................................... 10 White Paper – BTLab 2014 - Tutti i diritti riservati – Riproduzione vietata
1
L’Ultimo Capitolo della storia del Data-Driven: the Big Data
Matteo Bottazzi
L’ultimo capitolo della storia del data-driven: the Big Data.
> L’ultima frontiera per le aziende nel campo dell’informazione.
Perché raccogliere dati? In che modo possono esserci utili? Ma, soprattutto, perché affidarsi a un
dataset così grande come quello che viene appunto chiamato Big Data?
Partiamo con ordine. Prima di tutto è fondamentale capire cosa si intende con Big Data. Si è
soliti indicare con questo termine - tra l’altro molto recente - una raccolta di dataset (ovvero un
insieme di dati strutturati e collegati) che raccolgono informazioni molto eterogenee, in grado di
comunicare tra loro e che permettono l’accesso a una quantità smisurata di informazioni. Queste
informazioni vengono poi utilizzate per compiere analisi complesse in cui è richiesta la
sovrapposizione e il confronto del maggior numero di dati possibili al fine di ottenere
un’immagine nitida del fenomeno che si sta studiano (un esempio può essere lo studio dei
mercati azionari). Dunque, le informazioni non provengono da un singolo database né da un
dataset, ma da un’unita più grande che li contiene entrambi e rende fruibili allo stesso tempo dati
di diversa natura: immagini, email, localizzazione geografica, archivi e le informazioni provenienti
dai social network.
A questo punto sorge spontanea una domanda. Chi è in grado di sfruttare una tale mole
d’informazioni?
Bill Roberts, in un articolo uscito su HR Magazine dal titolo “The Benefits of Big Data”, spiega
chiaramente che il suo utilizzo da parte delle aziende è quasi divenuto obbligatorio. In particolare,
esso diviene una risorsa imprescindibile per il marketing, il customer service, il product
development e l’HR. L’obiettivo principale è quello di basare le decisioni riguardanti il capitale
umano sui dati e non sulle intuizioni o sull’esperienza. “È di fondamentale importanza - oggi più
che mai - derivare valore dai dati all’interno dell’ambiente di business”, ha rivelato Bob Bennett,
chief learning officer e vice presidente HR alla FedEx Corp.
Chiaramente, non sempre ciò si traduce in informazioni sensate. Bisogna, infatti, saper catturare
i dati che interessano, processarli utilizzando strumenti adatti e, infine, utilizzarli a proprio
vantaggio. Nonostante il punto interrogativo che accompagna ogni analisi di questo tipo, l’utilizzo
dei Big Data resta un sentiero obbligato proprio in seno dell’aumento esponenziale delle
informazioni digitalizzate e presenti in rete.
Una prima caratteristica che accompagna i dati così raccolti è la loro “varietà”. Utilizzati
principalmente dal dipartimento HR, essi forniscono informazioni sui salari medi, sull’andamento
demografico della popolazione lavorativa e sugli studi di settore, solo per fare alcuni esempi. Una
seconda è rappresentata dalla loro “strutturazione” o “non-strutturazione”. Appartengono alla
prima categoria tutti quei dati strutturati all’interno di database standard come il sistema
informativo HR, i sistemi di contabilità e quello relativo alla pianificazione delle risorse presenti in
azienda. I dati non-strutturati, al contrario, includono survey, questionari, valutazioni delle
prestazioni, screening dei curriculum. L’umore dei propri dipendenti, le aspirazioni di quelli
futuribili e le tendenze del mercato del lavoro, sono dati che possono essere acquisiti mediante
strumenti quali social media, blogs, wikis, e-mails e qualsiasi video o immagine. LinkedIn, ad
esempio, è utile per capire da dove provengono i nuovi assunti e dove vannoquelli in uscita. Infine,
la “velocità” si riferisce all’aumento dei dati che vengono caricati real-time e che necessitano di
essere trasformati in azioni di valore per il business.
Per un qualsiasi dipartimento HR la varietà rappresenta senz’altro la sfida più difficile da
affrontare. Utilizzando un audace parallelismo cinematografico, si potrebbe dire che l’HR recita il
ruolo di chi, in Matrix, leggeva lo scorrere di numeri e lettere sul monitor del computer e
nonostante tutto era in grado di vedere ciò che accadeva, di trarne informazioni e aiutare i propri
compagni in difficoltà in tempo reale.
White Paper – BTLab 2014 - Tutti i diritti riservati – Riproduzione vietata
2
L’Ultimo Capitolo della storia del Data-Driven: the Big Data
Matteo Bottazzi
Fig.1 - Jinbao Zhu, Allen Wang (2012), Data Modeling for Big Data, in CA Technologies press.
Allo stesso modo, le Risorse Umane devono saper processare due tipi di dati fondamentali: quelli
interni alla funzione del personale stessa e quelli provenienti dall’esterno. La bravura e la
difficoltà risiede nel gestire tale volume di informazioni e renderle comprensibili. Tuttavia,
sistemi informativi obsoleti rallentano il processo e provocano un inutile dispendio di energie. Una
soluzione è rappresentata dall’adozione di un data mart, ovvero di un particolare software che
permette di legare i dati presenti nel database prima che questi vengano analizzati. Ciò riduce i
tempi e soprattutto offre una visione più completa sulle informazioni di valore. Per fare un
esempio è possibile legare dati provenienti dall’HR con quelli del Finance, e prendere
conseguentemente decisioni con un elevato impatto sul business.
Per concludere, saper interagire con le nuove tecnologie significa calarsi in Matrix, questo mondo
digitalizzato a volte difficile da comprendere ma che offre, a chi impara a saper leggere tra le
stringhe, un nuovo mondo ad esso sottostante. Significa fissare un nuovo punto di partenza e
tracciare una nuova rotta in direzione di dove si sta andando.
IBM, Teradata, EMC. Tre nomi, tre definizioni, un solo soggetto: Big Data.
> Come le multinazionali dell’informazione digitale “vedono” the Big Data.
Nel precedente articolo si è già parlato del concetto di Big Data e si è cercato di descriverlo come
una nuova realtà definita da nuove e innovative risorse di dati. Questi dati vengono utilizzati in
maniera trasversale all’interno delle organizzazioni pressoché a vantaggio di tutti i dipartimenti e
servizi come ad esempio il marketing, la funzione HR, il customer service e il product
White Paper – BTLab 2014 - Tutti i diritti riservati – Riproduzione vietata
3
L’Ultimo Capitolo della storia del Data-Driven: the Big Data
Matteo Bottazzi
development. Fermo restando che la sfida consta nella capacità di catturare le informazioni e nel
saperle utilizzare appropriatamente mediante specifici strumenti di analisi, è anche molto
interessante soffermarsi poco più a monte del processo e investigare alcune importanti
definizioni “vendor-based”, ovvero elaborate direttamente da chi è coinvolto, più di altri, nel
processo di produzione e smistamento di tali informazioni digitali: IBM, Teradata, EMC.
Prima di vedere più da vicino in che termini il Big Data è stato descritto dalle tre compagini è utile
quantomeno accennare ad un distinguo introdotto da Daniel E. O’Leary tra “Internet of Things”,
“Internet of Signs” e “Big Data”. Per la precisione, infatti, nell’articolo ‘Big Data’, The ‘Internet Of
Things’ And The ‘Internet Of Signs’ (2013), l’autore spinge nella direzione di una visione
abbastanza unificata delle tre espressioni, tanto da arrivare a sostenere una loro completa
interrelazione all’interno del processo generativo delle informazioni e nel contesto dove esse
vengono a svilupparsi.
A quanto pare, dunque, ciascuno di questi tre concetti è correlato l’uno con l’altro. Cox e Ellswort
(1997) sono stati i primi ad usare il termine Big Data riferendolo all’utilizzo di grandi volumi di
dati utili nella visualizzazione di altri dati di natura scientifica (Diebold è stato il primo, ad
esempio, a usare il termine in ambito statistico e in econometria nel 2012). Tuttavia, da allora il
termine ha subito un’evoluzione di significato fino ad arrivare ad abbracciare al suo interno i
concetti di integrazione e analisi (dei dati). Lungo il suo sentiero evolutivo si trovano, dunque, IBM,
Teradata ed EMC che, pur offrendo prospettive diverse di analisi dello stesso concetto,
nascondono, in realtà, alcune somiglianze. Come notato da Ashton (2009), il termine 'Internet of
Things', a quanto pare sviluppato nel 1999, inizialmente doveva descrivere la seguente
situazione:
Today computers – and, therefore, the Internet – are almost wholly dependent on
human beings for information […]. The problem is, people have limited time,
attention and accuracy – all of which means they are not very good at capturing data
about things in the real world […]. We need to empower computers with their own
means of gathering information, so they can see, hear and smell the world for
themselves […].
Ancora, a titolo esemplificativo, Gartner ha definito 'Big Data' come:
[…] high volume, velocity and variety information assets that demand cost-effective,
innovative forms of information processing for enhanced insight and decision making.
Come si accennava righe sopra, tra i principali produttori di servizi in Big data, IMB, Teradata ed
EMC hanno giocato un ruolo chiave nella definizione del termine stesso.
In una pubblicazione IBM, Zikopoulos et al. (2012) descrive 'Big Data' come composto da tre "V":
volume, velocità e varietà. Il volume indica la grande crescita quantitativa dei dati in ambienti
tradizionali; la velocità suggerisce che l'informazione viene generata ad una velocità che supera
quella dei sistemi tradizionali; la varietà, infine, è indicativa dell’esistenza di molteplici forme
emergenti di dati di interesse per le imprese. Ad esempio, come riporta Daniel E. O’Leary, Twitter
e altri social media sono diventati, nel corso del tempo, una fonte di dati di enormi dimensioni. A
metà del 2010 ci sono stati 65 milioni di tweet al giorno e 190 milioni di iscritti. Sempre
Zikopoulos et al. (2013), in una successiva pubblicazione IBM, ha ulteriormente arricchito la
definizione di Big Data con i concetti supplementari di veridicità e valore. La veridicità si riferisce
alla correttezza e all’affidabilità dei dati: fattori questi altamente auspicabili ma difficili da
garantire, in particolare con dati provenienti da più fonti. Il valore, invece, si riferisce alla capacità
dei dati accumulati di garantire benefici per il portafoglio tecnologico di un'impresa. Tuttavia, lo
sviluppo di 'Big Data' richiede anche un'infrastruttura per supportare la raccolta, la conservazione,
l'elaborazione e l’utilizzo delle informazioni accumulate.
Bawa (2011) di Teradata, sofferma l’attenzione sulla varietà dei dati, sulle differenti strutture e
l’analisi degli stessi. In particolare suggerisce che il numero di applicazioni in grado di generare
dati sta crescendo esponenzialmente e quasi di pari passo anche quello dei programmi in grado
di interpretarli. Inoltre ha rilevato la struttura altamente variabile dei dati, in parte prodotta dagli
White Paper – BTLab 2014 - Tutti i diritti riservati – Riproduzione vietata
4
L’Ultimo Capitolo della storia del Data-Driven: the Big Data
Matteo Bottazzi
stessi programmi che li genera. Quest’ultima considerazione apre così lo scenario sull’annosa
questione di come interpretarli.
Infine, EMC parla principalmente della necessità di analizzare velocemente i dati destrutturati.
C’è da dire che EMC ha sempre parlato di Big Data da una prospettiva BDaaS, ovvero come Big
Data as a Service, e questo ha senz’altro influenzato la sua interpretazione del fenomeno in
chiave efficentista del servizio offerto (questo include una certa celerità dello stesso). Proprio
perché i dati stanno diventando sempre più complessi, meno strutturati e vari, essi necessitano
di essere rapidamente elaborati e ciò rappresenta senz’altro una bella sfida per i database
tradizionali e per le infrastrutture scale-up. Nuove architetture su scala industriale devono essere,
dunque, progettate al fine di rispondere adeguatamente al processo di massiccia analisi dei dati
provenienti da più fonti.
Avviandoci verso la conclusione, fin qui sono emerse nuove e interessanti prospettive del
concetto di Big Data, non più semplicemente delimitabile all’interno della parola “dati”. Big Data
rappresenta molto più che semplici dati, ma rimanda alla velocità di elaborazione e generazione
con la quale le imprese devono competere; si è anche sottolineata la variabile della complessità,
della diversità e della natura non strutturata dei dati generati. Conseguentemente, anche l’analisi
di tali informazioni variegate dovrà essere a sua volta varia e non omogenea dal momento che
sarà necessario rispondere “all’equivocità con altrettanta equivocità” (Ashby, 1965). Infine la
definizione offerta dall’ultimo vendor, EMC, sottolinea la necessità di modernizzare le architetture
delle tecnologie dell’informazione.
Ancora parlando di Big Data: dall’Internet of Things all’Internet of People and
Things.
> Dagli scanner ottici supertecnologici delle catene di montaggio alle
persone e viceversa. Chi è il primo generatore di informazioni?
“Internet of Things”, “Internet of Signs” e “context”, sono questi tre gli elementi che convergono
andando ad alimentare il calderone del Big Data. Come brevemente accennato nel precedente
articolo, Daniel E. O’Leary introdusse per primo la distinzione tra le tre dimensioni concettuali,
Chui et al. (2010), poi, hanno definito 'l’Internet delle cose' come:
“[…] l’insieme di sensori integrati in oggetti fisici - da strade a pacemaker - e collegati
attraverso reti cablate e wireless, spesso utilizzando lo stesso protocollo Internet (IP)
che collega Internet”.
“L’internet delle cose'” si riferisce generalmente alla nozione secondo la quale molte "cose"
differenti possono essere collegate a Internet e quindi anche tra loro. Le 'cose' possono essere
sensori, banche dati, altri dispositivi o software. I sensori potrebbero includere pacemaker,
identificatori di localizzazione, come il sistema di posizionamento globale (GPS), e dispositivi di
identificazione individuale, quali l'identificazione a radiofrequenza (RFID).
Le 'cose' possono, inoltre, essere intelligenti e consapevoli di “altre cose”, conseguentemente, ci
sarà la necessità di alcune 'cose' di comunicare con altre 'cose'. Una 'cosa' potrebbe trovare la
posizione di un suo correlato o “trovare interessanti” alcune informazioni relative ad altre “cose”
e “decidere” di avviare un dialogo con esse, raccogliendo informazioni, scambiando dati gli uni
con gli altri e, infine, comunicare i risultati della ricerca a un decisore (l’operatore umano). Ad
esempio, dalla scannerizzazione delle targhette di prodotti chimici facilmente infiammabili se
posizionate l’uno accanto all’altro è facile giungere alla corretta allocazione di ciascun prodotto
all’interno del proprio alloggiamento. Il risultato dello scanner viene così inviato al decisore
(l’operatore umano) il quale è in grado di attuare un sicuro e veloce stoccaggio del prodotto o
della materia prima in questione. Tali informazioni, così come tante altre, possono essere, infine,
White Paper – BTLab 2014 - Tutti i diritti riservati – Riproduzione vietata
5
L’Ultimo Capitolo della storia del Data-Driven: the Big Data
Matteo Bottazzi
salvate a livello locale o in Cloud, consentendo, in quest’ultimo caso, il loro accesso a livello
globale e la consultazione delle informazioni accessibile a tutti.
“L’internet delle cose” è dunque in grado di generare 'Big Data' per una serie di motivi. Primo fra
tutti, il volume dei dati imputabili all’internet delle cose è sostanziale: i sensori interagiscono con
il mondo delle cose e a loro volta i tag RFID generano altrettanti volumi di dati. Di conseguenza il
requisito dell’elaborazione digitale è soddisfatto e le informazioni acquisite entrano anch’esse a
far parte del 'Big Data'. Secondo aspetto da considerare è la velocità dei dati associati all’internet
delle cose. I sensori sono, infatti, in grado di acquisire dati senza interruzione di continuità e ciò a
fronte dell’elaborazione delle transizioni tradizionali. Un terzo punto è rappresentato dalla varietà:
tanto è più ampia la gamma di dati associati all’internet delle cose e tanto è maggiore la tipologia
di sensori in grado di leggerli. Questo spiega anche un ulteriore leva che fa ricadere i dati prodotti
dall’internet delle cose all’interno del Big Data. La veridicità dei dati, infatti, tende al
miglioramento della qualità degli stessi strumenti utilizzati per ricavarli. Ad esempio, l’uso dei tag
RFID genera un volume di informazioni più affidabile rispetto ai sensori utilizzati nel passato e,
inevitabilmente, questo tipo di tecnologie sono destinate a migliorare nel tempo.
Ancora più recentemente, poi, la definizione di Internet delle cose, ha subito un’ulteriore
ingrandimento concettuale, poiché essa non si riferisce solo e soltanto alle “cose” ma anche alle
persone che di quelle cose sono gli esecutori, i tramiti e i primi beneficiari. In altre parole, le “cose”
non sono altro che automazioni di persone all’interno di un mondo nel quale la maggior parte del
lavoro di “cose” è realizzato per o sulle persone. Per di più, la qualità delle informazioni prodotte
dall’internet delle cose è inevitabilmente influenzato dalle persone; di conseguenza è importante
avere a disposizione un concetto più grande delle sole “cose”, un concetto che estenda quello
tradizionale “all’internet delle persone e delle cose”, fornendo così una base più ampia di
connessioni e relazioni (UK Future Internet Strategy Group, 2011).
Per concludere ciò include, dunque, i social media, utili nella fornitura di ulteriori dati su infiniti
universi e contesti. Proprio per questa ragione molti studiosi hanno cominciato a parlare di
“Internet of Everything” (SRA, 2009), dove praticamente tutto è collegato a internet e in grado di
comunicare con tutto il resto. 'Waze' ad esempio, la nota applicazione per smartphone, è in
grado di generare dati social sul traffico praticamente in tempo reale. Gli utenti, in altre parole,
possono fornire informazioni sui percorsi, gli itinerari, il volume di traffico, localizzare postazioni di
autovelox e altro ancora. Dunque, la combinazione di Waze con i media basata su sensori,
fornisce una visione unica del traffico e del contesto (pericoli, polizia, ecc.). L’interazione è
dunque alla base della veridicità dei dati, i quali possono essere costantemente migliorati proprio
grazie al contributo degli stessi utenti finali. La stessa logica utilizzata dagli esperti di recruiting,
per fare un altro esempio, nei processi di selezione. Da un’attenta analisi delle “abitudini”
lavorative dei potenziali candidati condivise sui social (come LinkedIn) è possibile, infatti,
scremare le figure più adatte a ricoprire le posizioni vacanti e iniziare così l’iter predisposto.
Tuttavia, anche dallo studio delle abitudini di consumo di beni o servizi si possono ricavare
importanti informazioni per il dipartimento marketing, vendite e relazioni con il cliente. Insomma,
l’universo social direttamente connesso con l’Internet delle cose è fucina di dati che aspettano
solamente di essere considerati dalle diverse funzioni in un’ottica aziendale tutta a vantaggio del
business.
America Football College League: un Tweet Sbagliato può valere la sconfitta.
> Un utile aiuto per tutti: la semiotica come disciplina per interpretare le
informazioni nascoste.
Al piccolo glossario andato pian piano costituendosi è necessario aggiungere un ultimo
importante concetto probabilmente chiarificatore anche di alcune zone rimaste in ombra nei
precedenti articoli: l’Internet of Signs. Come suggerisce il nome stesso, quest’ultimo tassello
White Paper – BTLab 2014 - Tutti i diritti riservati – Riproduzione vietata
6
L’Ultimo Capitolo della storia del Data-Driven: the Big Data
Matteo Bottazzi
rientra nell’alveo degli studi sulla semiotica, ovvero di quella disciplina che studia i segni e il
modo con cui questi assumono senso. Chandler (2009), uno dei padri fondatori della semiotica,
osservava che essa è:
[…] una scienza che studia il ruolo dei segni come parte della vita sociale.
Culler (2005), aggiunge che:
[…] la semiotica pensa al nostro mondo sociale e culturale come una serie di sistemi
segnici.
Da queste due definizioni si capisce, dunque, che le “cose” dell’Internet delle cose
precedentemente descritto sono passabili di interpretazione semiotica, poiché anch’esse, come
d’altronde tutto ciò che è coinvolto nella nostra vita quotidiana, è traducibile in segni aventi
significato sociale e culturale. Le “cose” sono, di fatto, espressione di cambiamenti sociali,
abitudini, costumi, rivoluzioni in atto, cambiamenti nel modo di vestirsi, di interpretare altre
“cose”.
Primo paradigma: le “cose” generano segni. Ad esempio, i sensori di molti dispositivi
computerizzati, precedentemente sostituiti dalle persone, generano delle misure che, a loro volta,
possono essere utilizzate per fornire una conoscenza dei “segni”. In particolare, la semiotica ha
dimostrato da sempre di privilegiare lo studio dei simboli e dei concetti che le cose rappresentano,
non tanto delle “cose” in sé e per sé. Ad esempio, Langer (1942) sostiene che:
Symbols are not proxy for their objects but are vehicles for the conception of objects
[…]. In talking about things we have conceptions of them, not the things themselves;
and it is the conceptions, not the things, that symbols directly mean.
Resta tuttavia da approfondire quali siano le relazioni tra le “cose” e i “segni delle cose”: in altre
parole, i rapporti tra “cose”, la concezione delle cose e i “sintomi” comportamentali utili a fornire
una spiegazione degli eventi e delle situazioni. In particolare i “sintomi”, secondo la scienza dello
studio dei segni, offrono una spiegazione a potenziali cause dei comportamenti e degli eventi,
senza dimenticare che eventuali cambiamenti negli stessi sintomi possono essere interpretati
come “segni” a loro volta. A titolo esemplificativo, i segni presenti all’interno di certi blog possono
suggerire certi sintomi di cambiamenti nelle abitudini dei consumatori nei confronti di specifici
prodotti. Di conseguenza è chiaro come ci sia un forte interesse da parte delle aziende
nell’interpretare certi dati poiché questi ultimi possono essere utilizzati per generare intuizioni di
valore sempre più utili per lo sviluppo del proprio business.
Secondo paradigma: Big Data genera segni. È a questo livello che viene richiesto uno sforzo
ulteriore in direzione del futuro. Infatti, se storicamente la semiotica ha sempre privilegiato le
informazioni generate direttamente dagli uomini, ora gli si richiede di interpretare i segni
provenienti da più fonti, non solamente human generated. Si è detto che uno di essi è
rappresentato da sensori quando si parla di interpretare i segni provenienti 'dall’Internet of
Things', ma i dati provenienti da Internet, come detto, possono accogliere una vasta gamma oltre
ad essi. Sono segni passabili di interpretazione anche i blog, i Wiki, i messaggi Twitter, YouTube e
così via. Ad esempio, Yahoo.com fornisce un riassunto di ciò che è 'Trend'. Tale utile funzione
delle attività dei social media fornisce, in definitiva, indicazioni su ciò che sta accadendo o è
accaduto, mettendo dunque in evidenza ciò che è ritenuto importante o interessante dagli
internauti. Un secondo esempio significativo è rappresentato da un articolo, dal titolo
assolutamente premonitore, pubblicato da Eric Mack in Crowdsourcing.org. Più precisamente, il
post, intitolato per l’appunto “New Signs Wikipedia Began a Long Decline in 2012” presenta tutta
una serie di elementi, tra i quali l’inaccuratezza delle pagine di Wikipedia, che stanno via via
determinando un suo lento ma inesorabile declino. Allo stesso modo, uno sfortunato Tweet del
team di Football dell’Alabama, che preannunciava una goliardica uscita la sera prima di
un’importante sfida contro la rivale del Notre Dame nel campionato di College Americano, ha di
fatto recapitato in tempo reale agli esponenti della controporte l’atteso messaggio. I ricercatori
non hanno dovuto fare altro che cogliere le informazioni implicite presenti nel messaggio e
interpretarle: la scarsa concentrazione dei giocatori del team dell’Alabama.
White Paper – BTLab 2014 - Tutti i diritti riservati – Riproduzione vietata
7
L’Ultimo Capitolo della storia del Data-Driven: the Big Data
Matteo Bottazzi
Terzo paradigma: il contesto determina l’interpretazione dei segni. Come ha insegnato l’esempio
del tweet lanciato inopportunamente dal team dell’Alabama - rivelatosi alla fine un indiretto
vantaggio alla rivale del Notre Dame nel campionato tra College di football americano - è sempre
necessario contestualizzare le informazioni reperite in rete. Cade, come si suol dire a fagiolo, il
suggerimento di Dey (2001) a tal proposito:
Context is any information that can be used to characterize the situation of an entity.
An entity is a person, place, or object that is considered relevant to the interaction
between a user and an application, including the user and applications themselves.
Il contesto è dunque un elemento di fondamentale importanza nelle fasi di pre-verifica delle
informazioni sia in corso di svolgimento sia di quelle già verificatesi ma presenti in rete. Non
bisogna mai dimenticare, infatti, che quando si tenta di attribuire un significato ai “segni”
rintracciati, ovvero quando si verificano gli “eventi”, i dati posti sotto la lente d’ingrandimento
sono sempre generati da una varietà di fonti che è opportuno verificare a loro volta. Analizzare
una maggiore quantità di dati diversi significa, in definitiva, carpire sempre più le condizioni del
contesto all’interno del quale esse sono inserite. Dunque, se il contesto è catturato utilizzando
tutti i dati disponibili, il Big Data dovrebbe essere in grado di fornire un Big Context. Per chiarire
quanto detto, basti pensare che Hernandez (2012), nel caso di transazioni commerciali, propone
una nova prospettiva basata su un processo di memorizzazione di ciascuna attività di business. Il
che si traduce nella possibilità di tenere traccia dei pagamenti, degli acquisiti, di quanto la
transazione sia andata a buon fine, della geolocalizzazione dell’utente e molto altro ancora.
Si è dunque concluso l’excursus sulle tre principali dimensioni che concorrono ad alimentare
quello che nell’articolo introduttivo di questo white paper è stato definito “l’ultimo capitolo del
data driven”, ovvero il Big Data. L’Internet of Things, l’Internet of Signs e il Contesto non sono
altro che tre aspetti che parlano della stessa cosa, che si nutrono e alimentano allo stesso tempo
i dati in rete ai quali tutti, oramai, sono in grado di poter accedere e, solo in determinate
condizioni, anche di interpretare correttamente. Il futuro sviluppo del business e l’individuazione
di potenziali aree di interesse dipenderanno, dunque, da quel processo descritto che vede le
“cose” trasformarsi in dati e i “segni”, da essi generati, prima in informazioni (sempre e
comunque soggette a interpretazioni) e poi in interpretazioni mediante lo studio del contesto. Il
tutto confluisce nella determinazione del Big Data, la quale, tuttavia, non può essere considerata
come il risultato di un mero processo per sommatoria ma, piuttosto, come un Giano bifronte
capace di accogliere un’immensità di informazioni e di riciclarle successivamente arricchite e
come nuove. È quindi un ciclo virtuoso autoalimentato quello dal quale oggi non si può più
prescindere: l’ultima (per il momento) frontiera dell’informazione e della capacità delle aziende di
attrarre nuovi clienti sta paradossalmente nel non avere frontiere.
Tra filosofia, società e cyberspazio. Capire i dati prima di assicurarli.
> La teoria propedeutica alla pratica.
Riprendendo brevemente le fila dei precedenti articoli, si considerino le implicazioni che la
gestione di una tale mole d’informazioni comporta, in termini di sicurezza informatica, per le
aziende. Queste ultime, infatti, producono a loro volta dei dati (nella maggior parte dei casi
sensibili, riferentesi alle procedure interne, alle policy, ai dati dei propri dipendenti, ai progetti di
business) che necessitano di essere gestiti con precise tecnologie e nel rispetto della privacy e
della sicurezza.
Se nei precedenti articoli si è principalmente parlato della natura delle informazioni, della loro
raccolta, catalogazione e ultimo utilizzo da parte delle aziende, più precisamente da parte della
Funzione Risorse Umane, nel presente si intende iniziare un percorso che sia in grado di
disvelarne la genesi. Termini quali gnoseologia e antropologia possono sembrare assolutamente
fuori luogo, o comunque a latere, rispetto alla natura delle informazioni digitali; in realtà, tentare,
White Paper – BTLab 2014 - Tutti i diritti riservati – Riproduzione vietata
8
L’Ultimo Capitolo della storia del Data-Driven: the Big Data
Matteo Bottazzi
anche se di striscio, di dare una risposta a domande inerenti la relazione intercorrente tra “tali
dati” e le realtà organizzative, ma ancor di più a proposito del loro legame con “società” e
“individuo”, può aiutare a far luce su quella sottile linea d’ombra all’interno della quale si
intersecano, in modo magistrale, filosofia, sociologia e cyberspazio. Significa, al modo di Kant,
trovare una relazione tra soggetto conoscente (individuo in carne e ossa) e oggetto conosciuto
(alter-ego digitale) e, al modo di Morgan & Tylor, lo sviluppo dei dati nella loro accezione socioculturale e, in generale, delle loro ripercussioni all’interno della società.
Ora, purtroppo, a causa della complessità ed estensione dei temi richiamati, non sarebbe
sufficiente un intero trattato prima di avere una panoramica esaustiva. Dunque, prima di
affrontare il tema della sicurezza informatica in termini più tecnici che teoretici, cosa che avverrà
solamente nel prossimo articolo, qui si considereranno alcuni semplici spunti tratti dalle serie di
considerazioni fatte precedentemente. Nello specifico: esiste una reale e consistente divergenza
tra la nostra persona fisica e il nostro io digitale? Come vengono interpretate le nostre
informazioni caricate in rete dalla comunità di “interessati”? Il tutto senza mai dimenticare di
contestualizzare i dati raccolti all’interno dello sfondo che le fa da cornice: la messa in sicurezza
del sistema informatico aziendale.
Procedendo con rigoroso ordine logico, si parta dall’assunto che la messa in sicurezza delle
informazioni circolanti all’interno delle aziende non è sempre così automatica né, talvolta, è
considerata di primaria importanza. In realtà, mai come oggi, il responsabile ICT e Sicurezza deve
essere considerato uno dei principali asset all’interno del tessuto organizzativo aziendale. Con
l’utilizzo di internet, d’altronde, molte aziende sono portate ad aprire i propri sistemi di
informazione a fornitori e partner, diventa dunque fondamentale conoscere le risorse aziendali
per la protezione degli accessi e dei permessi. A questo bisogna aggiungere il cosiddetto
“nomadismo”, in altre parole la possibilità che viene data ai dipendenti di accedere alle
informazioni aziendali indipendentemente da dove si trovino: questo fenomeno comporta
inevitabilmente una fuoriuscita di informazioni dall’infrastruttura securizzata dell’azienda.
La perdita o la fuoriuscita incontrollata di dati sensibili può comportare seri problemi all’azienda
sotto tutti i punti di vista e diminuire le possibilità di mantenere un vantaggio competitivo
rispetto alla concorrenza. Non bisogna mai dimenticare, infatti, che nell’epoca
dell’informatizzazione e di internet, le tecnologie ma ancora di più le persone, qualora queste
ultime costituiscano il successo dell’azienda, non possono più essere semplicemente considerate
nella loro forma naturale. In realtà quasi tutti, in un modo o in un altro, possediamo un alter-ego
digitale. Per fare un esempio alla portata di tutti, si pensi a facebook: in questa realtà fittizia,
come sottolineato da Daniel Solove, “non si è molto più di un collage elettronico di bit di
informazioni, una persona digitale composta e presente in tutte le reti informatiche collettive del
mondo”. Un concetto, questo, di estrema attualità e reso possibile proprio dalle nuove tecnologie
e dall’inarrestabile processo di digitalizzazione delle informazioni. Di fatto, noi persistiamo in due
mondi interconnessi: quello fisico, reale, in cui respiriamo e, contemporaneamente, anche nel
mondo digitale che riproduce un’immagine più o meno fedele di quella reale. Un mondo,
quest’ultimo, dove siamo costantemente reperibili, rintracciabili, ma dove, a differenza dell’altro,
corrispondiamo a semplici codici alfa-numerici. Questi numeri, apparentemente così volatili, ci
rappresentano a tal punto che diventa impossibile scindere i nostri due io. Un’evoluzione del
pensiero, questa, che avrebbe mandato in confusione la teoria della conoscenza di kantiana
memoria, e costretto Aristotele a rivedere la forma dei suoi sillogismi.
È proprio la nostra versione virtuale, inoltre, a essere soggetta, spesso, a furti e intercettazioni:
quasi che il nostro io fatto di bit sia di maggior valore rispetto al nostro io in carne e ossa. Ed
effettivamente è così. Come ricorda Alessandro Acquisti, “ogni nostro dato o informazione digitale
può divenire un dato o un’informazione sensibile”. Questo ci rende, tutti indistintamente,
dannatamente vulnerabili, poiché non siamo più semplicemente responsabili delle nostre azioni
nel “mondo tangibile” ma anche di quelle che compiamo in rete. Chi siamo nella vita virtuale e
l’insieme delle informazioni che siamo in grado di produrre a tale proposito è tanto allettante
quanto chi siamo nella vita reale, se non in maggior misura. Questo scenario, esplicativo in
minima parte dell’accezione antropologica dei “dati digitali” - ovvero del loro rapporto con
White Paper – BTLab 2014 - Tutti i diritti riservati – Riproduzione vietata
9
L’Ultimo Capitolo della storia del Data-Driven: the Big Data
Matteo Bottazzi
“società” e “individuo” - è di fatto lo stesso che si prefigura nei casi di spionaggio industriale e
che può essere limitato proprio attraverso la messa in sicurezza delle infrastrutture informatiche
attraverso le quali transitano tutte le informazioni e i dati prodotti dai diversi dipartimenti
aziendali.
Purtroppo, si presentano diversi problemi nella gestione dei dati, prima di tutto a livello di
governance condivisa. Infatti, la disponibilità di informazioni digitali sta trasformando le aziende a
una velocità tale che spesso, le aziende stesse, faticano a tenere il passo in termini di sicurezza
informatica e delle telecomunicazioni. Un secondo aspetto problematico è rappresentato dalla
tecnologia e dal rapporto tra privacy dei dati personali e gli interessi delle multinazionali. Le
organizzazioni, infatti, utilizzano la tecnologia per introdurre nuovi prodotti o servizi, migliorare
l’efficienza e raccogliere maggiori informazioni sui loro clienti. Tuttavia, questi stessi universi di
opportunità sono anche da considerarsi dei rischi. Le organizzazioni devono implementare non
solo le politiche e i controlli per salvaguardare le informazioni personali, ma anche gli strumenti di
controllo per monitorare l’accesso ai dati dei consumatori. Questo introduce un terzo aspetto: il
passaggio strategico dal “rispetto” alla “responsabilità”. Così come la gestione della privacy sta
diventando sempre più complessa, anche le questioni di regolamentazione devono essere
adeguate. Fin quando queste ultime non risponderanno adeguatamente alle reali esigenze delle
aziende fino a divenire uno standard consolidato, molte organizzazioni continueranno a
raccogliere risme di dati personali in modo del tutto indiscriminato senza però prendere le dovute
precauzioni per la loro protezione.
Per concludere, il rapporto tra dati digitali e individuo/società rientra all’interno di un concetto
ancora in estrema evoluzione che non permette di poterlo classificare in cluster ideologici
prefissati. Non resta che aspettare i futuri sviluppi tecnologici e le ricadute sul modo di
“maneggiare” i dati presenti in rete. Nel frattempo, le organizzazioni tutte, non possono fare altro
che iniziare, partendo da politiche generali condivise, ad allineare le proprie infrastrutture IT in
modo da farsi trovare pronte di fronte a future minacce e saper, in definitiva, gestire e proteggere
i dati sensibili fondamentali per il prosieguo delle proprie attività di business.
Ripensare la sicurezza informatica partendo dalle basi.
> Capire su chi puntare e quali strumenti utilizzare in nome della privacy e
della coerenza dei dati.
Dopo aver trattato alcuni aspetti teoretici relativi alle informazioni digitali è ora il momento di
passare ad aspetti di maggior rilevanza tecnico-pratica, al fine di individuare concretamente
come fare e da dove partire per assicurare il frutto del proprio lavoro.
Per mettere in sicurezza un’intera infrastruttura IT è infatti necessario, prima di tutto, stabilire
una politica di sicurezza e, in secondo luogo, supportare tale politica con le tecnologie e gli
strumenti richiesti dal caso. Il tutto seguendo quelli che vengono considerati i pilastri portanti
della sicurezza informatica e una precisa regolamentazione condivisa a livello globale. È doveroso,
a questo punto, un focus puntuale su aspetti che era stato possibile solo accennare nel
precedente articolo ma che ora hanno ragione di essere esplicitati più accuratamente. A questo
proposito si era parlato degli obiettivi, della necessità di un approccio globale e dell’attuazione di
una politica di sicurezza informatica.
Per ciò che concerne gli obiettivi della sicurezza informatica, si parta dal presupposto che il
sistema di informazione rappresenta un patrimonio nonché un asset essenziale per l'azienda.
Esso deve essere, dunque, tutelato e protetto. A tal fine è necessario che le risorse hardware e
software di un'organizzazione siano usate unicamente nei casi previsti e perseguendo i seguenti
obiettivi:
-
l’integrità, cioè garantire che i dati siano effettivamente quelli che si pensano;
White Paper – BTLab 2014 - Tutti i diritti riservati – Riproduzione vietata
10
L’Ultimo Capitolo della storia del Data-Driven: the Big Data
-
Matteo Bottazzi
la confidenzialità, che consiste nell'assicurare che solo le persone autorizzate abbiano
accesso alle risorse scambiate;
la disponibilità, che permette di mantenere il corretto funzionamento del sistema
d'informazione;
il non ripudio, che permette di garantire che una transazione non possa essere negata;
l'autenticazione, che consiste nell'assicurare che solo le persone autorizzate abbiano
accesso alle risorse.
Tuttavia, come si diceva in precedenza parlando della governance condivisa, non bisogna
dimenticare la necessità di un approccio globale. Utilizzando una metafora, in effetti la sicurezza
di un sistema informatico può essere paragonata a una catena in cui il reale livello di sicurezza è
determinato dal livello di sicurezza dell'anello più debole. Così, una porta blindata è inutile in un
edificio se le finestre che danno direttamente sulla strada sono aperte.
L’attuazione di una precisa politica di sicurezza informatica passa necessariamente attraverso le
seguenti quattro tappe:
-
capire i bisogni, i rischi informatici e le possibili conseguenze;
predisporre delle contromisure in grado di arginare i rischi precedentemente identificati;
monitorare costantemente il sistema di protezione informatica così progettato,
adeguandolo di volta in volta ai mutamenti di necessità o alle falle riscontrate;
identificare le persone da contattare in caso di riscontro di una minaccia.
Avviandoci verso la conclusione di questo “white paper” è utile aggiungere che il punto delle
politiche di sicurezza informatica appena trattato introduce un’annosa questione interna alle
organizzazioni: la poca importanza spesso attribuita al responsabile ITC e Sicurezza. In realtà,
data la corrispondenza tra amministratore del sistema (esperto informatico) e utilizzatori, si
evidenzia la necessità di una tale figura. Il ruolo dell'amministratore informatico è infatti quello
di assicurare che le risorse informatiche e i permessi di accesso a queste ultime siano coerenti
con la politica di sicurezza definita dall'organizzazione. Inoltre, dato che è il solo a conoscere
perfettamente il sistema, sta a lui mettere a conoscenza la sua direzione sulle informazioni
riguardo la sicurezza ed eventualmente di consigliare i decisori sulle strategie da attuare, nonché
di essere il punto focale rispetto alla comunicazione destinata agli utenti sui problemi e
raccomandazioni in termini di sicurezza.
In attesa che l’orizzonte sul trattamento dei dati digitalizzati appaia più vicino e di più facile
lettura e che le organizzazioni adeguino le proprie politiche a regolamentazioni globali in tema di
sicurezza IT, non resta che fare attenzione alle informazioni che si decide di rendere di pubblico
dominio - una volta in rete possono considerarsi tali - e dissentire da qualsiasi forma di abuso del
trattamento di informazioni personali e/o riservate.
L’AUTORE:
MATTEO BOTTAZZI
Organizational Development at TR-Teknoloji
Blogger, appassionato di scrittura e filosofia
E-mail: [email protected]
White Paper – BTLab 2014 - Tutti i diritti riservati – Riproduzione vietata
11
L’Ultimo Capitolo della storia del Data-Driven: the Big Data
Matteo Bottazzi
BICOCCA TRAINING & DEVELOPMENT CENTRE
Università degli Studi di Milano Bicocca
Dipartimento di Scienze Umane per la Formazione “R. Massa”
Piazza dell'Ateneo Nuovo 1
20126 Milano
CONTATTI
E-mail: [email protected]
Sito web: http://btdc.albaproject.it/
Twitter: @bicocca_btdc
White Paper – BTLab 2014 - Tutti i diritti riservati – Riproduzione vietata
12