01_2014_L`ultimo capitolo della storia del data
Transcript
01_2014_L`ultimo capitolo della storia del data
N. 01/ giugno 2014 Bicocca Training Lab White Paper L’Ultimo capitolo della storia del datadriven: the Big Data Matteo Bottazzi Twitter: @bicocca_btdc E-mail: [email protected] Bicocca Training&Development Centre http://btdc.albaproject.it/ L’Ultimo Capitolo della storia del Data-Driven: the Big Data Matteo Bottazzi Sommario L’ultimo capitolo della storia del data-driven: the Big Data ...............................2 IBM, Teradata, EMC. Tre nomi, tre definizioni, un solo soggetto: Big Data...............................................................................................................3 Ancora parlando di Big Data: dall’Internet of Things all’Internet of People and Things. .........................................................................................5 America Football College League: un Tweet Sbagliato può valere la sconfitta.........................................................................................................6 Tra filosofia, società e cyberspazio. Capire i dati prima di assicurarli. ...............8 Ripensare la sicurezza informatica partendo dalle basi. ................................... 10 White Paper – BTLab 2014 - Tutti i diritti riservati – Riproduzione vietata 1 L’Ultimo Capitolo della storia del Data-Driven: the Big Data Matteo Bottazzi L’ultimo capitolo della storia del data-driven: the Big Data. > L’ultima frontiera per le aziende nel campo dell’informazione. Perché raccogliere dati? In che modo possono esserci utili? Ma, soprattutto, perché affidarsi a un dataset così grande come quello che viene appunto chiamato Big Data? Partiamo con ordine. Prima di tutto è fondamentale capire cosa si intende con Big Data. Si è soliti indicare con questo termine - tra l’altro molto recente - una raccolta di dataset (ovvero un insieme di dati strutturati e collegati) che raccolgono informazioni molto eterogenee, in grado di comunicare tra loro e che permettono l’accesso a una quantità smisurata di informazioni. Queste informazioni vengono poi utilizzate per compiere analisi complesse in cui è richiesta la sovrapposizione e il confronto del maggior numero di dati possibili al fine di ottenere un’immagine nitida del fenomeno che si sta studiano (un esempio può essere lo studio dei mercati azionari). Dunque, le informazioni non provengono da un singolo database né da un dataset, ma da un’unita più grande che li contiene entrambi e rende fruibili allo stesso tempo dati di diversa natura: immagini, email, localizzazione geografica, archivi e le informazioni provenienti dai social network. A questo punto sorge spontanea una domanda. Chi è in grado di sfruttare una tale mole d’informazioni? Bill Roberts, in un articolo uscito su HR Magazine dal titolo “The Benefits of Big Data”, spiega chiaramente che il suo utilizzo da parte delle aziende è quasi divenuto obbligatorio. In particolare, esso diviene una risorsa imprescindibile per il marketing, il customer service, il product development e l’HR. L’obiettivo principale è quello di basare le decisioni riguardanti il capitale umano sui dati e non sulle intuizioni o sull’esperienza. “È di fondamentale importanza - oggi più che mai - derivare valore dai dati all’interno dell’ambiente di business”, ha rivelato Bob Bennett, chief learning officer e vice presidente HR alla FedEx Corp. Chiaramente, non sempre ciò si traduce in informazioni sensate. Bisogna, infatti, saper catturare i dati che interessano, processarli utilizzando strumenti adatti e, infine, utilizzarli a proprio vantaggio. Nonostante il punto interrogativo che accompagna ogni analisi di questo tipo, l’utilizzo dei Big Data resta un sentiero obbligato proprio in seno dell’aumento esponenziale delle informazioni digitalizzate e presenti in rete. Una prima caratteristica che accompagna i dati così raccolti è la loro “varietà”. Utilizzati principalmente dal dipartimento HR, essi forniscono informazioni sui salari medi, sull’andamento demografico della popolazione lavorativa e sugli studi di settore, solo per fare alcuni esempi. Una seconda è rappresentata dalla loro “strutturazione” o “non-strutturazione”. Appartengono alla prima categoria tutti quei dati strutturati all’interno di database standard come il sistema informativo HR, i sistemi di contabilità e quello relativo alla pianificazione delle risorse presenti in azienda. I dati non-strutturati, al contrario, includono survey, questionari, valutazioni delle prestazioni, screening dei curriculum. L’umore dei propri dipendenti, le aspirazioni di quelli futuribili e le tendenze del mercato del lavoro, sono dati che possono essere acquisiti mediante strumenti quali social media, blogs, wikis, e-mails e qualsiasi video o immagine. LinkedIn, ad esempio, è utile per capire da dove provengono i nuovi assunti e dove vannoquelli in uscita. Infine, la “velocità” si riferisce all’aumento dei dati che vengono caricati real-time e che necessitano di essere trasformati in azioni di valore per il business. Per un qualsiasi dipartimento HR la varietà rappresenta senz’altro la sfida più difficile da affrontare. Utilizzando un audace parallelismo cinematografico, si potrebbe dire che l’HR recita il ruolo di chi, in Matrix, leggeva lo scorrere di numeri e lettere sul monitor del computer e nonostante tutto era in grado di vedere ciò che accadeva, di trarne informazioni e aiutare i propri compagni in difficoltà in tempo reale. White Paper – BTLab 2014 - Tutti i diritti riservati – Riproduzione vietata 2 L’Ultimo Capitolo della storia del Data-Driven: the Big Data Matteo Bottazzi Fig.1 - Jinbao Zhu, Allen Wang (2012), Data Modeling for Big Data, in CA Technologies press. Allo stesso modo, le Risorse Umane devono saper processare due tipi di dati fondamentali: quelli interni alla funzione del personale stessa e quelli provenienti dall’esterno. La bravura e la difficoltà risiede nel gestire tale volume di informazioni e renderle comprensibili. Tuttavia, sistemi informativi obsoleti rallentano il processo e provocano un inutile dispendio di energie. Una soluzione è rappresentata dall’adozione di un data mart, ovvero di un particolare software che permette di legare i dati presenti nel database prima che questi vengano analizzati. Ciò riduce i tempi e soprattutto offre una visione più completa sulle informazioni di valore. Per fare un esempio è possibile legare dati provenienti dall’HR con quelli del Finance, e prendere conseguentemente decisioni con un elevato impatto sul business. Per concludere, saper interagire con le nuove tecnologie significa calarsi in Matrix, questo mondo digitalizzato a volte difficile da comprendere ma che offre, a chi impara a saper leggere tra le stringhe, un nuovo mondo ad esso sottostante. Significa fissare un nuovo punto di partenza e tracciare una nuova rotta in direzione di dove si sta andando. IBM, Teradata, EMC. Tre nomi, tre definizioni, un solo soggetto: Big Data. > Come le multinazionali dell’informazione digitale “vedono” the Big Data. Nel precedente articolo si è già parlato del concetto di Big Data e si è cercato di descriverlo come una nuova realtà definita da nuove e innovative risorse di dati. Questi dati vengono utilizzati in maniera trasversale all’interno delle organizzazioni pressoché a vantaggio di tutti i dipartimenti e servizi come ad esempio il marketing, la funzione HR, il customer service e il product White Paper – BTLab 2014 - Tutti i diritti riservati – Riproduzione vietata 3 L’Ultimo Capitolo della storia del Data-Driven: the Big Data Matteo Bottazzi development. Fermo restando che la sfida consta nella capacità di catturare le informazioni e nel saperle utilizzare appropriatamente mediante specifici strumenti di analisi, è anche molto interessante soffermarsi poco più a monte del processo e investigare alcune importanti definizioni “vendor-based”, ovvero elaborate direttamente da chi è coinvolto, più di altri, nel processo di produzione e smistamento di tali informazioni digitali: IBM, Teradata, EMC. Prima di vedere più da vicino in che termini il Big Data è stato descritto dalle tre compagini è utile quantomeno accennare ad un distinguo introdotto da Daniel E. O’Leary tra “Internet of Things”, “Internet of Signs” e “Big Data”. Per la precisione, infatti, nell’articolo ‘Big Data’, The ‘Internet Of Things’ And The ‘Internet Of Signs’ (2013), l’autore spinge nella direzione di una visione abbastanza unificata delle tre espressioni, tanto da arrivare a sostenere una loro completa interrelazione all’interno del processo generativo delle informazioni e nel contesto dove esse vengono a svilupparsi. A quanto pare, dunque, ciascuno di questi tre concetti è correlato l’uno con l’altro. Cox e Ellswort (1997) sono stati i primi ad usare il termine Big Data riferendolo all’utilizzo di grandi volumi di dati utili nella visualizzazione di altri dati di natura scientifica (Diebold è stato il primo, ad esempio, a usare il termine in ambito statistico e in econometria nel 2012). Tuttavia, da allora il termine ha subito un’evoluzione di significato fino ad arrivare ad abbracciare al suo interno i concetti di integrazione e analisi (dei dati). Lungo il suo sentiero evolutivo si trovano, dunque, IBM, Teradata ed EMC che, pur offrendo prospettive diverse di analisi dello stesso concetto, nascondono, in realtà, alcune somiglianze. Come notato da Ashton (2009), il termine 'Internet of Things', a quanto pare sviluppato nel 1999, inizialmente doveva descrivere la seguente situazione: Today computers – and, therefore, the Internet – are almost wholly dependent on human beings for information […]. The problem is, people have limited time, attention and accuracy – all of which means they are not very good at capturing data about things in the real world […]. We need to empower computers with their own means of gathering information, so they can see, hear and smell the world for themselves […]. Ancora, a titolo esemplificativo, Gartner ha definito 'Big Data' come: […] high volume, velocity and variety information assets that demand cost-effective, innovative forms of information processing for enhanced insight and decision making. Come si accennava righe sopra, tra i principali produttori di servizi in Big data, IMB, Teradata ed EMC hanno giocato un ruolo chiave nella definizione del termine stesso. In una pubblicazione IBM, Zikopoulos et al. (2012) descrive 'Big Data' come composto da tre "V": volume, velocità e varietà. Il volume indica la grande crescita quantitativa dei dati in ambienti tradizionali; la velocità suggerisce che l'informazione viene generata ad una velocità che supera quella dei sistemi tradizionali; la varietà, infine, è indicativa dell’esistenza di molteplici forme emergenti di dati di interesse per le imprese. Ad esempio, come riporta Daniel E. O’Leary, Twitter e altri social media sono diventati, nel corso del tempo, una fonte di dati di enormi dimensioni. A metà del 2010 ci sono stati 65 milioni di tweet al giorno e 190 milioni di iscritti. Sempre Zikopoulos et al. (2013), in una successiva pubblicazione IBM, ha ulteriormente arricchito la definizione di Big Data con i concetti supplementari di veridicità e valore. La veridicità si riferisce alla correttezza e all’affidabilità dei dati: fattori questi altamente auspicabili ma difficili da garantire, in particolare con dati provenienti da più fonti. Il valore, invece, si riferisce alla capacità dei dati accumulati di garantire benefici per il portafoglio tecnologico di un'impresa. Tuttavia, lo sviluppo di 'Big Data' richiede anche un'infrastruttura per supportare la raccolta, la conservazione, l'elaborazione e l’utilizzo delle informazioni accumulate. Bawa (2011) di Teradata, sofferma l’attenzione sulla varietà dei dati, sulle differenti strutture e l’analisi degli stessi. In particolare suggerisce che il numero di applicazioni in grado di generare dati sta crescendo esponenzialmente e quasi di pari passo anche quello dei programmi in grado di interpretarli. Inoltre ha rilevato la struttura altamente variabile dei dati, in parte prodotta dagli White Paper – BTLab 2014 - Tutti i diritti riservati – Riproduzione vietata 4 L’Ultimo Capitolo della storia del Data-Driven: the Big Data Matteo Bottazzi stessi programmi che li genera. Quest’ultima considerazione apre così lo scenario sull’annosa questione di come interpretarli. Infine, EMC parla principalmente della necessità di analizzare velocemente i dati destrutturati. C’è da dire che EMC ha sempre parlato di Big Data da una prospettiva BDaaS, ovvero come Big Data as a Service, e questo ha senz’altro influenzato la sua interpretazione del fenomeno in chiave efficentista del servizio offerto (questo include una certa celerità dello stesso). Proprio perché i dati stanno diventando sempre più complessi, meno strutturati e vari, essi necessitano di essere rapidamente elaborati e ciò rappresenta senz’altro una bella sfida per i database tradizionali e per le infrastrutture scale-up. Nuove architetture su scala industriale devono essere, dunque, progettate al fine di rispondere adeguatamente al processo di massiccia analisi dei dati provenienti da più fonti. Avviandoci verso la conclusione, fin qui sono emerse nuove e interessanti prospettive del concetto di Big Data, non più semplicemente delimitabile all’interno della parola “dati”. Big Data rappresenta molto più che semplici dati, ma rimanda alla velocità di elaborazione e generazione con la quale le imprese devono competere; si è anche sottolineata la variabile della complessità, della diversità e della natura non strutturata dei dati generati. Conseguentemente, anche l’analisi di tali informazioni variegate dovrà essere a sua volta varia e non omogenea dal momento che sarà necessario rispondere “all’equivocità con altrettanta equivocità” (Ashby, 1965). Infine la definizione offerta dall’ultimo vendor, EMC, sottolinea la necessità di modernizzare le architetture delle tecnologie dell’informazione. Ancora parlando di Big Data: dall’Internet of Things all’Internet of People and Things. > Dagli scanner ottici supertecnologici delle catene di montaggio alle persone e viceversa. Chi è il primo generatore di informazioni? “Internet of Things”, “Internet of Signs” e “context”, sono questi tre gli elementi che convergono andando ad alimentare il calderone del Big Data. Come brevemente accennato nel precedente articolo, Daniel E. O’Leary introdusse per primo la distinzione tra le tre dimensioni concettuali, Chui et al. (2010), poi, hanno definito 'l’Internet delle cose' come: “[…] l’insieme di sensori integrati in oggetti fisici - da strade a pacemaker - e collegati attraverso reti cablate e wireless, spesso utilizzando lo stesso protocollo Internet (IP) che collega Internet”. “L’internet delle cose'” si riferisce generalmente alla nozione secondo la quale molte "cose" differenti possono essere collegate a Internet e quindi anche tra loro. Le 'cose' possono essere sensori, banche dati, altri dispositivi o software. I sensori potrebbero includere pacemaker, identificatori di localizzazione, come il sistema di posizionamento globale (GPS), e dispositivi di identificazione individuale, quali l'identificazione a radiofrequenza (RFID). Le 'cose' possono, inoltre, essere intelligenti e consapevoli di “altre cose”, conseguentemente, ci sarà la necessità di alcune 'cose' di comunicare con altre 'cose'. Una 'cosa' potrebbe trovare la posizione di un suo correlato o “trovare interessanti” alcune informazioni relative ad altre “cose” e “decidere” di avviare un dialogo con esse, raccogliendo informazioni, scambiando dati gli uni con gli altri e, infine, comunicare i risultati della ricerca a un decisore (l’operatore umano). Ad esempio, dalla scannerizzazione delle targhette di prodotti chimici facilmente infiammabili se posizionate l’uno accanto all’altro è facile giungere alla corretta allocazione di ciascun prodotto all’interno del proprio alloggiamento. Il risultato dello scanner viene così inviato al decisore (l’operatore umano) il quale è in grado di attuare un sicuro e veloce stoccaggio del prodotto o della materia prima in questione. Tali informazioni, così come tante altre, possono essere, infine, White Paper – BTLab 2014 - Tutti i diritti riservati – Riproduzione vietata 5 L’Ultimo Capitolo della storia del Data-Driven: the Big Data Matteo Bottazzi salvate a livello locale o in Cloud, consentendo, in quest’ultimo caso, il loro accesso a livello globale e la consultazione delle informazioni accessibile a tutti. “L’internet delle cose” è dunque in grado di generare 'Big Data' per una serie di motivi. Primo fra tutti, il volume dei dati imputabili all’internet delle cose è sostanziale: i sensori interagiscono con il mondo delle cose e a loro volta i tag RFID generano altrettanti volumi di dati. Di conseguenza il requisito dell’elaborazione digitale è soddisfatto e le informazioni acquisite entrano anch’esse a far parte del 'Big Data'. Secondo aspetto da considerare è la velocità dei dati associati all’internet delle cose. I sensori sono, infatti, in grado di acquisire dati senza interruzione di continuità e ciò a fronte dell’elaborazione delle transizioni tradizionali. Un terzo punto è rappresentato dalla varietà: tanto è più ampia la gamma di dati associati all’internet delle cose e tanto è maggiore la tipologia di sensori in grado di leggerli. Questo spiega anche un ulteriore leva che fa ricadere i dati prodotti dall’internet delle cose all’interno del Big Data. La veridicità dei dati, infatti, tende al miglioramento della qualità degli stessi strumenti utilizzati per ricavarli. Ad esempio, l’uso dei tag RFID genera un volume di informazioni più affidabile rispetto ai sensori utilizzati nel passato e, inevitabilmente, questo tipo di tecnologie sono destinate a migliorare nel tempo. Ancora più recentemente, poi, la definizione di Internet delle cose, ha subito un’ulteriore ingrandimento concettuale, poiché essa non si riferisce solo e soltanto alle “cose” ma anche alle persone che di quelle cose sono gli esecutori, i tramiti e i primi beneficiari. In altre parole, le “cose” non sono altro che automazioni di persone all’interno di un mondo nel quale la maggior parte del lavoro di “cose” è realizzato per o sulle persone. Per di più, la qualità delle informazioni prodotte dall’internet delle cose è inevitabilmente influenzato dalle persone; di conseguenza è importante avere a disposizione un concetto più grande delle sole “cose”, un concetto che estenda quello tradizionale “all’internet delle persone e delle cose”, fornendo così una base più ampia di connessioni e relazioni (UK Future Internet Strategy Group, 2011). Per concludere ciò include, dunque, i social media, utili nella fornitura di ulteriori dati su infiniti universi e contesti. Proprio per questa ragione molti studiosi hanno cominciato a parlare di “Internet of Everything” (SRA, 2009), dove praticamente tutto è collegato a internet e in grado di comunicare con tutto il resto. 'Waze' ad esempio, la nota applicazione per smartphone, è in grado di generare dati social sul traffico praticamente in tempo reale. Gli utenti, in altre parole, possono fornire informazioni sui percorsi, gli itinerari, il volume di traffico, localizzare postazioni di autovelox e altro ancora. Dunque, la combinazione di Waze con i media basata su sensori, fornisce una visione unica del traffico e del contesto (pericoli, polizia, ecc.). L’interazione è dunque alla base della veridicità dei dati, i quali possono essere costantemente migliorati proprio grazie al contributo degli stessi utenti finali. La stessa logica utilizzata dagli esperti di recruiting, per fare un altro esempio, nei processi di selezione. Da un’attenta analisi delle “abitudini” lavorative dei potenziali candidati condivise sui social (come LinkedIn) è possibile, infatti, scremare le figure più adatte a ricoprire le posizioni vacanti e iniziare così l’iter predisposto. Tuttavia, anche dallo studio delle abitudini di consumo di beni o servizi si possono ricavare importanti informazioni per il dipartimento marketing, vendite e relazioni con il cliente. Insomma, l’universo social direttamente connesso con l’Internet delle cose è fucina di dati che aspettano solamente di essere considerati dalle diverse funzioni in un’ottica aziendale tutta a vantaggio del business. America Football College League: un Tweet Sbagliato può valere la sconfitta. > Un utile aiuto per tutti: la semiotica come disciplina per interpretare le informazioni nascoste. Al piccolo glossario andato pian piano costituendosi è necessario aggiungere un ultimo importante concetto probabilmente chiarificatore anche di alcune zone rimaste in ombra nei precedenti articoli: l’Internet of Signs. Come suggerisce il nome stesso, quest’ultimo tassello White Paper – BTLab 2014 - Tutti i diritti riservati – Riproduzione vietata 6 L’Ultimo Capitolo della storia del Data-Driven: the Big Data Matteo Bottazzi rientra nell’alveo degli studi sulla semiotica, ovvero di quella disciplina che studia i segni e il modo con cui questi assumono senso. Chandler (2009), uno dei padri fondatori della semiotica, osservava che essa è: […] una scienza che studia il ruolo dei segni come parte della vita sociale. Culler (2005), aggiunge che: […] la semiotica pensa al nostro mondo sociale e culturale come una serie di sistemi segnici. Da queste due definizioni si capisce, dunque, che le “cose” dell’Internet delle cose precedentemente descritto sono passabili di interpretazione semiotica, poiché anch’esse, come d’altronde tutto ciò che è coinvolto nella nostra vita quotidiana, è traducibile in segni aventi significato sociale e culturale. Le “cose” sono, di fatto, espressione di cambiamenti sociali, abitudini, costumi, rivoluzioni in atto, cambiamenti nel modo di vestirsi, di interpretare altre “cose”. Primo paradigma: le “cose” generano segni. Ad esempio, i sensori di molti dispositivi computerizzati, precedentemente sostituiti dalle persone, generano delle misure che, a loro volta, possono essere utilizzate per fornire una conoscenza dei “segni”. In particolare, la semiotica ha dimostrato da sempre di privilegiare lo studio dei simboli e dei concetti che le cose rappresentano, non tanto delle “cose” in sé e per sé. Ad esempio, Langer (1942) sostiene che: Symbols are not proxy for their objects but are vehicles for the conception of objects […]. In talking about things we have conceptions of them, not the things themselves; and it is the conceptions, not the things, that symbols directly mean. Resta tuttavia da approfondire quali siano le relazioni tra le “cose” e i “segni delle cose”: in altre parole, i rapporti tra “cose”, la concezione delle cose e i “sintomi” comportamentali utili a fornire una spiegazione degli eventi e delle situazioni. In particolare i “sintomi”, secondo la scienza dello studio dei segni, offrono una spiegazione a potenziali cause dei comportamenti e degli eventi, senza dimenticare che eventuali cambiamenti negli stessi sintomi possono essere interpretati come “segni” a loro volta. A titolo esemplificativo, i segni presenti all’interno di certi blog possono suggerire certi sintomi di cambiamenti nelle abitudini dei consumatori nei confronti di specifici prodotti. Di conseguenza è chiaro come ci sia un forte interesse da parte delle aziende nell’interpretare certi dati poiché questi ultimi possono essere utilizzati per generare intuizioni di valore sempre più utili per lo sviluppo del proprio business. Secondo paradigma: Big Data genera segni. È a questo livello che viene richiesto uno sforzo ulteriore in direzione del futuro. Infatti, se storicamente la semiotica ha sempre privilegiato le informazioni generate direttamente dagli uomini, ora gli si richiede di interpretare i segni provenienti da più fonti, non solamente human generated. Si è detto che uno di essi è rappresentato da sensori quando si parla di interpretare i segni provenienti 'dall’Internet of Things', ma i dati provenienti da Internet, come detto, possono accogliere una vasta gamma oltre ad essi. Sono segni passabili di interpretazione anche i blog, i Wiki, i messaggi Twitter, YouTube e così via. Ad esempio, Yahoo.com fornisce un riassunto di ciò che è 'Trend'. Tale utile funzione delle attività dei social media fornisce, in definitiva, indicazioni su ciò che sta accadendo o è accaduto, mettendo dunque in evidenza ciò che è ritenuto importante o interessante dagli internauti. Un secondo esempio significativo è rappresentato da un articolo, dal titolo assolutamente premonitore, pubblicato da Eric Mack in Crowdsourcing.org. Più precisamente, il post, intitolato per l’appunto “New Signs Wikipedia Began a Long Decline in 2012” presenta tutta una serie di elementi, tra i quali l’inaccuratezza delle pagine di Wikipedia, che stanno via via determinando un suo lento ma inesorabile declino. Allo stesso modo, uno sfortunato Tweet del team di Football dell’Alabama, che preannunciava una goliardica uscita la sera prima di un’importante sfida contro la rivale del Notre Dame nel campionato di College Americano, ha di fatto recapitato in tempo reale agli esponenti della controporte l’atteso messaggio. I ricercatori non hanno dovuto fare altro che cogliere le informazioni implicite presenti nel messaggio e interpretarle: la scarsa concentrazione dei giocatori del team dell’Alabama. White Paper – BTLab 2014 - Tutti i diritti riservati – Riproduzione vietata 7 L’Ultimo Capitolo della storia del Data-Driven: the Big Data Matteo Bottazzi Terzo paradigma: il contesto determina l’interpretazione dei segni. Come ha insegnato l’esempio del tweet lanciato inopportunamente dal team dell’Alabama - rivelatosi alla fine un indiretto vantaggio alla rivale del Notre Dame nel campionato tra College di football americano - è sempre necessario contestualizzare le informazioni reperite in rete. Cade, come si suol dire a fagiolo, il suggerimento di Dey (2001) a tal proposito: Context is any information that can be used to characterize the situation of an entity. An entity is a person, place, or object that is considered relevant to the interaction between a user and an application, including the user and applications themselves. Il contesto è dunque un elemento di fondamentale importanza nelle fasi di pre-verifica delle informazioni sia in corso di svolgimento sia di quelle già verificatesi ma presenti in rete. Non bisogna mai dimenticare, infatti, che quando si tenta di attribuire un significato ai “segni” rintracciati, ovvero quando si verificano gli “eventi”, i dati posti sotto la lente d’ingrandimento sono sempre generati da una varietà di fonti che è opportuno verificare a loro volta. Analizzare una maggiore quantità di dati diversi significa, in definitiva, carpire sempre più le condizioni del contesto all’interno del quale esse sono inserite. Dunque, se il contesto è catturato utilizzando tutti i dati disponibili, il Big Data dovrebbe essere in grado di fornire un Big Context. Per chiarire quanto detto, basti pensare che Hernandez (2012), nel caso di transazioni commerciali, propone una nova prospettiva basata su un processo di memorizzazione di ciascuna attività di business. Il che si traduce nella possibilità di tenere traccia dei pagamenti, degli acquisiti, di quanto la transazione sia andata a buon fine, della geolocalizzazione dell’utente e molto altro ancora. Si è dunque concluso l’excursus sulle tre principali dimensioni che concorrono ad alimentare quello che nell’articolo introduttivo di questo white paper è stato definito “l’ultimo capitolo del data driven”, ovvero il Big Data. L’Internet of Things, l’Internet of Signs e il Contesto non sono altro che tre aspetti che parlano della stessa cosa, che si nutrono e alimentano allo stesso tempo i dati in rete ai quali tutti, oramai, sono in grado di poter accedere e, solo in determinate condizioni, anche di interpretare correttamente. Il futuro sviluppo del business e l’individuazione di potenziali aree di interesse dipenderanno, dunque, da quel processo descritto che vede le “cose” trasformarsi in dati e i “segni”, da essi generati, prima in informazioni (sempre e comunque soggette a interpretazioni) e poi in interpretazioni mediante lo studio del contesto. Il tutto confluisce nella determinazione del Big Data, la quale, tuttavia, non può essere considerata come il risultato di un mero processo per sommatoria ma, piuttosto, come un Giano bifronte capace di accogliere un’immensità di informazioni e di riciclarle successivamente arricchite e come nuove. È quindi un ciclo virtuoso autoalimentato quello dal quale oggi non si può più prescindere: l’ultima (per il momento) frontiera dell’informazione e della capacità delle aziende di attrarre nuovi clienti sta paradossalmente nel non avere frontiere. Tra filosofia, società e cyberspazio. Capire i dati prima di assicurarli. > La teoria propedeutica alla pratica. Riprendendo brevemente le fila dei precedenti articoli, si considerino le implicazioni che la gestione di una tale mole d’informazioni comporta, in termini di sicurezza informatica, per le aziende. Queste ultime, infatti, producono a loro volta dei dati (nella maggior parte dei casi sensibili, riferentesi alle procedure interne, alle policy, ai dati dei propri dipendenti, ai progetti di business) che necessitano di essere gestiti con precise tecnologie e nel rispetto della privacy e della sicurezza. Se nei precedenti articoli si è principalmente parlato della natura delle informazioni, della loro raccolta, catalogazione e ultimo utilizzo da parte delle aziende, più precisamente da parte della Funzione Risorse Umane, nel presente si intende iniziare un percorso che sia in grado di disvelarne la genesi. Termini quali gnoseologia e antropologia possono sembrare assolutamente fuori luogo, o comunque a latere, rispetto alla natura delle informazioni digitali; in realtà, tentare, White Paper – BTLab 2014 - Tutti i diritti riservati – Riproduzione vietata 8 L’Ultimo Capitolo della storia del Data-Driven: the Big Data Matteo Bottazzi anche se di striscio, di dare una risposta a domande inerenti la relazione intercorrente tra “tali dati” e le realtà organizzative, ma ancor di più a proposito del loro legame con “società” e “individuo”, può aiutare a far luce su quella sottile linea d’ombra all’interno della quale si intersecano, in modo magistrale, filosofia, sociologia e cyberspazio. Significa, al modo di Kant, trovare una relazione tra soggetto conoscente (individuo in carne e ossa) e oggetto conosciuto (alter-ego digitale) e, al modo di Morgan & Tylor, lo sviluppo dei dati nella loro accezione socioculturale e, in generale, delle loro ripercussioni all’interno della società. Ora, purtroppo, a causa della complessità ed estensione dei temi richiamati, non sarebbe sufficiente un intero trattato prima di avere una panoramica esaustiva. Dunque, prima di affrontare il tema della sicurezza informatica in termini più tecnici che teoretici, cosa che avverrà solamente nel prossimo articolo, qui si considereranno alcuni semplici spunti tratti dalle serie di considerazioni fatte precedentemente. Nello specifico: esiste una reale e consistente divergenza tra la nostra persona fisica e il nostro io digitale? Come vengono interpretate le nostre informazioni caricate in rete dalla comunità di “interessati”? Il tutto senza mai dimenticare di contestualizzare i dati raccolti all’interno dello sfondo che le fa da cornice: la messa in sicurezza del sistema informatico aziendale. Procedendo con rigoroso ordine logico, si parta dall’assunto che la messa in sicurezza delle informazioni circolanti all’interno delle aziende non è sempre così automatica né, talvolta, è considerata di primaria importanza. In realtà, mai come oggi, il responsabile ICT e Sicurezza deve essere considerato uno dei principali asset all’interno del tessuto organizzativo aziendale. Con l’utilizzo di internet, d’altronde, molte aziende sono portate ad aprire i propri sistemi di informazione a fornitori e partner, diventa dunque fondamentale conoscere le risorse aziendali per la protezione degli accessi e dei permessi. A questo bisogna aggiungere il cosiddetto “nomadismo”, in altre parole la possibilità che viene data ai dipendenti di accedere alle informazioni aziendali indipendentemente da dove si trovino: questo fenomeno comporta inevitabilmente una fuoriuscita di informazioni dall’infrastruttura securizzata dell’azienda. La perdita o la fuoriuscita incontrollata di dati sensibili può comportare seri problemi all’azienda sotto tutti i punti di vista e diminuire le possibilità di mantenere un vantaggio competitivo rispetto alla concorrenza. Non bisogna mai dimenticare, infatti, che nell’epoca dell’informatizzazione e di internet, le tecnologie ma ancora di più le persone, qualora queste ultime costituiscano il successo dell’azienda, non possono più essere semplicemente considerate nella loro forma naturale. In realtà quasi tutti, in un modo o in un altro, possediamo un alter-ego digitale. Per fare un esempio alla portata di tutti, si pensi a facebook: in questa realtà fittizia, come sottolineato da Daniel Solove, “non si è molto più di un collage elettronico di bit di informazioni, una persona digitale composta e presente in tutte le reti informatiche collettive del mondo”. Un concetto, questo, di estrema attualità e reso possibile proprio dalle nuove tecnologie e dall’inarrestabile processo di digitalizzazione delle informazioni. Di fatto, noi persistiamo in due mondi interconnessi: quello fisico, reale, in cui respiriamo e, contemporaneamente, anche nel mondo digitale che riproduce un’immagine più o meno fedele di quella reale. Un mondo, quest’ultimo, dove siamo costantemente reperibili, rintracciabili, ma dove, a differenza dell’altro, corrispondiamo a semplici codici alfa-numerici. Questi numeri, apparentemente così volatili, ci rappresentano a tal punto che diventa impossibile scindere i nostri due io. Un’evoluzione del pensiero, questa, che avrebbe mandato in confusione la teoria della conoscenza di kantiana memoria, e costretto Aristotele a rivedere la forma dei suoi sillogismi. È proprio la nostra versione virtuale, inoltre, a essere soggetta, spesso, a furti e intercettazioni: quasi che il nostro io fatto di bit sia di maggior valore rispetto al nostro io in carne e ossa. Ed effettivamente è così. Come ricorda Alessandro Acquisti, “ogni nostro dato o informazione digitale può divenire un dato o un’informazione sensibile”. Questo ci rende, tutti indistintamente, dannatamente vulnerabili, poiché non siamo più semplicemente responsabili delle nostre azioni nel “mondo tangibile” ma anche di quelle che compiamo in rete. Chi siamo nella vita virtuale e l’insieme delle informazioni che siamo in grado di produrre a tale proposito è tanto allettante quanto chi siamo nella vita reale, se non in maggior misura. Questo scenario, esplicativo in minima parte dell’accezione antropologica dei “dati digitali” - ovvero del loro rapporto con White Paper – BTLab 2014 - Tutti i diritti riservati – Riproduzione vietata 9 L’Ultimo Capitolo della storia del Data-Driven: the Big Data Matteo Bottazzi “società” e “individuo” - è di fatto lo stesso che si prefigura nei casi di spionaggio industriale e che può essere limitato proprio attraverso la messa in sicurezza delle infrastrutture informatiche attraverso le quali transitano tutte le informazioni e i dati prodotti dai diversi dipartimenti aziendali. Purtroppo, si presentano diversi problemi nella gestione dei dati, prima di tutto a livello di governance condivisa. Infatti, la disponibilità di informazioni digitali sta trasformando le aziende a una velocità tale che spesso, le aziende stesse, faticano a tenere il passo in termini di sicurezza informatica e delle telecomunicazioni. Un secondo aspetto problematico è rappresentato dalla tecnologia e dal rapporto tra privacy dei dati personali e gli interessi delle multinazionali. Le organizzazioni, infatti, utilizzano la tecnologia per introdurre nuovi prodotti o servizi, migliorare l’efficienza e raccogliere maggiori informazioni sui loro clienti. Tuttavia, questi stessi universi di opportunità sono anche da considerarsi dei rischi. Le organizzazioni devono implementare non solo le politiche e i controlli per salvaguardare le informazioni personali, ma anche gli strumenti di controllo per monitorare l’accesso ai dati dei consumatori. Questo introduce un terzo aspetto: il passaggio strategico dal “rispetto” alla “responsabilità”. Così come la gestione della privacy sta diventando sempre più complessa, anche le questioni di regolamentazione devono essere adeguate. Fin quando queste ultime non risponderanno adeguatamente alle reali esigenze delle aziende fino a divenire uno standard consolidato, molte organizzazioni continueranno a raccogliere risme di dati personali in modo del tutto indiscriminato senza però prendere le dovute precauzioni per la loro protezione. Per concludere, il rapporto tra dati digitali e individuo/società rientra all’interno di un concetto ancora in estrema evoluzione che non permette di poterlo classificare in cluster ideologici prefissati. Non resta che aspettare i futuri sviluppi tecnologici e le ricadute sul modo di “maneggiare” i dati presenti in rete. Nel frattempo, le organizzazioni tutte, non possono fare altro che iniziare, partendo da politiche generali condivise, ad allineare le proprie infrastrutture IT in modo da farsi trovare pronte di fronte a future minacce e saper, in definitiva, gestire e proteggere i dati sensibili fondamentali per il prosieguo delle proprie attività di business. Ripensare la sicurezza informatica partendo dalle basi. > Capire su chi puntare e quali strumenti utilizzare in nome della privacy e della coerenza dei dati. Dopo aver trattato alcuni aspetti teoretici relativi alle informazioni digitali è ora il momento di passare ad aspetti di maggior rilevanza tecnico-pratica, al fine di individuare concretamente come fare e da dove partire per assicurare il frutto del proprio lavoro. Per mettere in sicurezza un’intera infrastruttura IT è infatti necessario, prima di tutto, stabilire una politica di sicurezza e, in secondo luogo, supportare tale politica con le tecnologie e gli strumenti richiesti dal caso. Il tutto seguendo quelli che vengono considerati i pilastri portanti della sicurezza informatica e una precisa regolamentazione condivisa a livello globale. È doveroso, a questo punto, un focus puntuale su aspetti che era stato possibile solo accennare nel precedente articolo ma che ora hanno ragione di essere esplicitati più accuratamente. A questo proposito si era parlato degli obiettivi, della necessità di un approccio globale e dell’attuazione di una politica di sicurezza informatica. Per ciò che concerne gli obiettivi della sicurezza informatica, si parta dal presupposto che il sistema di informazione rappresenta un patrimonio nonché un asset essenziale per l'azienda. Esso deve essere, dunque, tutelato e protetto. A tal fine è necessario che le risorse hardware e software di un'organizzazione siano usate unicamente nei casi previsti e perseguendo i seguenti obiettivi: - l’integrità, cioè garantire che i dati siano effettivamente quelli che si pensano; White Paper – BTLab 2014 - Tutti i diritti riservati – Riproduzione vietata 10 L’Ultimo Capitolo della storia del Data-Driven: the Big Data - Matteo Bottazzi la confidenzialità, che consiste nell'assicurare che solo le persone autorizzate abbiano accesso alle risorse scambiate; la disponibilità, che permette di mantenere il corretto funzionamento del sistema d'informazione; il non ripudio, che permette di garantire che una transazione non possa essere negata; l'autenticazione, che consiste nell'assicurare che solo le persone autorizzate abbiano accesso alle risorse. Tuttavia, come si diceva in precedenza parlando della governance condivisa, non bisogna dimenticare la necessità di un approccio globale. Utilizzando una metafora, in effetti la sicurezza di un sistema informatico può essere paragonata a una catena in cui il reale livello di sicurezza è determinato dal livello di sicurezza dell'anello più debole. Così, una porta blindata è inutile in un edificio se le finestre che danno direttamente sulla strada sono aperte. L’attuazione di una precisa politica di sicurezza informatica passa necessariamente attraverso le seguenti quattro tappe: - capire i bisogni, i rischi informatici e le possibili conseguenze; predisporre delle contromisure in grado di arginare i rischi precedentemente identificati; monitorare costantemente il sistema di protezione informatica così progettato, adeguandolo di volta in volta ai mutamenti di necessità o alle falle riscontrate; identificare le persone da contattare in caso di riscontro di una minaccia. Avviandoci verso la conclusione di questo “white paper” è utile aggiungere che il punto delle politiche di sicurezza informatica appena trattato introduce un’annosa questione interna alle organizzazioni: la poca importanza spesso attribuita al responsabile ITC e Sicurezza. In realtà, data la corrispondenza tra amministratore del sistema (esperto informatico) e utilizzatori, si evidenzia la necessità di una tale figura. Il ruolo dell'amministratore informatico è infatti quello di assicurare che le risorse informatiche e i permessi di accesso a queste ultime siano coerenti con la politica di sicurezza definita dall'organizzazione. Inoltre, dato che è il solo a conoscere perfettamente il sistema, sta a lui mettere a conoscenza la sua direzione sulle informazioni riguardo la sicurezza ed eventualmente di consigliare i decisori sulle strategie da attuare, nonché di essere il punto focale rispetto alla comunicazione destinata agli utenti sui problemi e raccomandazioni in termini di sicurezza. In attesa che l’orizzonte sul trattamento dei dati digitalizzati appaia più vicino e di più facile lettura e che le organizzazioni adeguino le proprie politiche a regolamentazioni globali in tema di sicurezza IT, non resta che fare attenzione alle informazioni che si decide di rendere di pubblico dominio - una volta in rete possono considerarsi tali - e dissentire da qualsiasi forma di abuso del trattamento di informazioni personali e/o riservate. L’AUTORE: MATTEO BOTTAZZI Organizational Development at TR-Teknoloji Blogger, appassionato di scrittura e filosofia E-mail: [email protected] White Paper – BTLab 2014 - Tutti i diritti riservati – Riproduzione vietata 11 L’Ultimo Capitolo della storia del Data-Driven: the Big Data Matteo Bottazzi BICOCCA TRAINING & DEVELOPMENT CENTRE Università degli Studi di Milano Bicocca Dipartimento di Scienze Umane per la Formazione “R. Massa” Piazza dell'Ateneo Nuovo 1 20126 Milano CONTATTI E-mail: [email protected] Sito web: http://btdc.albaproject.it/ Twitter: @bicocca_btdc White Paper – BTLab 2014 - Tutti i diritti riservati – Riproduzione vietata 12