Dati, dati, dovunque, ma fermiamoci e cominciamo a pensare

Transcript

Dati, dati, dovunque, ma fermiamoci e cominciamo a pensare
Hand writing:
Dati, dati, dovunque, ma fermiamoci e cominciamo a pensare
David J. Hand (Imperial College, London)
IMS BULLETIN, no. 43, Issue 1, pag. 4
Sicuramente nessuno che abbia anche solo una minima consapevolezza di quello che accade nel
mondo può ignorare il significato delle parole big data.
Quasi tutti i giorni, i giornali e le televisioni ci inondano di dati per non parlare del web.
A Novembre dello scorso anno, una ricerca su Google delle parole big data riportava qualcosa
come 1.8 bilioni di collegamenti. Google Trends segnala un tasso di ricerca per queste parole dieci
volte superiore a quello dell’inizio del 2011.
Queste due parole richiedono una maggiore precisione nella loro definizione: se ne può dare una
definizione in termini assoluti (numero di gigabytes, petabytes e così via…) o in termini relativi
(relativamente alle risorse computazionali a disposizione) o anche in altri termini. Un modo
assolutamente ovvio per etichettare i dati come big è quello di avere molte unità (in termini di
database astronomici si parla di database stellari) ma potrebbero essere big in termini di numero
di variabili (ad esempio i dati genomici), o relativamente al numero di volte in cui qualcosa è stato
osservato (ad esempio le frequenze elevate di occorrenza per dati finanziari) o ancora a causa
della loro complessità (ad esempio il numero di interazioni potenziali in un network sociale).
Tuttavia, una volta data la definizione, la questione sui big data sta tutta nella implicita promessa
che dietro ci possano essere fantastiche scoperte, nascoste dalla notevole mole di informazioni, e
che queste scoperte aspettano solo di essere tirate fuori, se solo si fosse capaci di farlo.
Che questa sia la stessa promessa fatta venti anni fa dal data mining non è una semplice
coincidenza. In senso lato, i big data sono semplicemente una rivisitazione mediatica del data
mining (e in termini commerciali del business analytics). Coniando la frase big data, i canali
mediatici hanno semplicemente dato uno spessore al crescente e repentino interesse verso questa
materia.
Riassumendo i termini della questione, ci sono due tipi di utilizzo dei big data. Uno coinvolge
semplicemente la ricerca, l’ordinamento, l’abbinamento, la concatenazione e così via. Ad
esempio, se vogliamo trovare delle indicazioni su Google maps, possiamo facilmente sapere
quanto dista la fermata dell’autobus e dove è dislocato il negozio in cui abbiamo bisogno di
rifornirci. Ma l’altro uso, e la mia sensazione è che in questo secondo aspetto ci siano molti più
problemi, coinvolge l’inferenza statistica. Ossia, quando non vogliamo sapere cosa si cela nei dati
ma quali dati avremmo potuto raccogliere in passato o quali potremmo raccogliere in futuro. Cosa
accadrà domani? Quale medicina migliorerà la nostra salute? Qual è il vero valore di qualche
variabile? Cosa sarebbe successo se le cose fossero andate diversamente?
Traduzione di E. Di Nardo
Mentre gli strumenti computazionali sono le chiavi per usare efficientemente i big data, gli
strumenti statistici sono le chiavi per maneggiarli e proiettarli nel futuro. Se i big data sono un
altro modo di chiamare il data mining (guardandoli come delle risorse piuttosto che come degli
strumenti) allora l’esperienza con il data mining può insegnarci qualcosa.
Ad esempio potremmo cominciare a credere che le scoperte davvero interessanti e di valore siano
poche e distanziate nel tempo, che molte scoperte non siano di alcun interesse oppure siano
ovvie, se non già note, o addirittura frutto di errori. Perché gli insiemi di grandi dati sono talvolta il
risultato di un accumulo di effetti collaterali di qualche altro processo: provate a riempire il
carrello di un supermercato, a decidere quale prescrizione è più appropriata per il paziente che
avete di fronte, o quale voto dare all’esame di un vostro studente. Sono tutte operazioni i cui esiti
possono variare secondo la dose di stress conseguente alla necessità di dover effettuare una
scelta.
Se c’è una cosa che gli statistici sanno fare è difendersi dai condizionamenti, ma altri forse no.
A parte la questione degli errori, un’altra critica che viene mossa ai big data sta nell’uso del
computer come necessario intermediario: il solo modo che si ha di guardare ai dati è attraverso
grafici, modelli e strumenti di diagnostica. E’ impossibile pensare di esaminare i dati uno ad uno.
Se i dati stessi rappresentano un passo nel comprendere il tipo di fenomeno sotto esame, allora
guardarli attraverso lo schermo di un computer è un ulteriore passo. Non c’è pericolo che si
insinuino nell’analisi dei fantastici errori o addirittura degli equivoci.
Inoltre, se è vero che i big data aprono la strada verso nuove scoperte, questo non vuol dire che gli
small data siano ridondanti, dove per small si intende di numerosità bassa. Anzi, potrei formulare
quella che i matematici chiamano una congettura: il numero di insiemi di dati di taglia n è
inversamente proporzionale a n. Ci sono in circolazione molti più insiemi small di dati che big,
pertanto ci si deve aspettare un numero di scoperte proporzionalmente maggiore dagli insiemi
piccoli di dati.
Nessuno però deve dimenticare che i dati e l’informazione non sono la stessa cosa: è possibile che
i dati siano tanti ma poveri di informazione.
Il cosiddetto teorema dell’ammasso di letame può essere di qualche aiuto in questo contesto.
Questo teorema –errato– dice che la probabilità di trovare una moneta d’oro in un cumulo di
letame tende ad 1 se il volume del letame tende all’infinito. Dopo aver tenuto un seminario sul
potenziale dei big data, dove sottolineavo la necessità di avere a disposizione strumenti effettivi
per esaminarli e parlavo dei trabocchetti che essi celano, diverse volte mi è capitato di parlare con
persone, tipicamente provenienti dal mondo commerciale, che avevano contattato ricercatori
affinché esaminassero la quantità massiccia di dati in loro possesso, ma senza trarne giovamento:
non erano state trovate informazioni utili.
E così siamo giunti al finale: per avere anche una piccola speranza di estrarre qualcosa di utile dai
big data e per superare i tranelli di cui ho parlato prima, sono vitali gli strumenti statistici
inferenziali.
Traduzione di E. Di Nardo