Dati, dati, dovunque, ma fermiamoci e cominciamo a pensare
Transcript
Dati, dati, dovunque, ma fermiamoci e cominciamo a pensare
Hand writing: Dati, dati, dovunque, ma fermiamoci e cominciamo a pensare David J. Hand (Imperial College, London) IMS BULLETIN, no. 43, Issue 1, pag. 4 Sicuramente nessuno che abbia anche solo una minima consapevolezza di quello che accade nel mondo può ignorare il significato delle parole big data. Quasi tutti i giorni, i giornali e le televisioni ci inondano di dati per non parlare del web. A Novembre dello scorso anno, una ricerca su Google delle parole big data riportava qualcosa come 1.8 bilioni di collegamenti. Google Trends segnala un tasso di ricerca per queste parole dieci volte superiore a quello dell’inizio del 2011. Queste due parole richiedono una maggiore precisione nella loro definizione: se ne può dare una definizione in termini assoluti (numero di gigabytes, petabytes e così via…) o in termini relativi (relativamente alle risorse computazionali a disposizione) o anche in altri termini. Un modo assolutamente ovvio per etichettare i dati come big è quello di avere molte unità (in termini di database astronomici si parla di database stellari) ma potrebbero essere big in termini di numero di variabili (ad esempio i dati genomici), o relativamente al numero di volte in cui qualcosa è stato osservato (ad esempio le frequenze elevate di occorrenza per dati finanziari) o ancora a causa della loro complessità (ad esempio il numero di interazioni potenziali in un network sociale). Tuttavia, una volta data la definizione, la questione sui big data sta tutta nella implicita promessa che dietro ci possano essere fantastiche scoperte, nascoste dalla notevole mole di informazioni, e che queste scoperte aspettano solo di essere tirate fuori, se solo si fosse capaci di farlo. Che questa sia la stessa promessa fatta venti anni fa dal data mining non è una semplice coincidenza. In senso lato, i big data sono semplicemente una rivisitazione mediatica del data mining (e in termini commerciali del business analytics). Coniando la frase big data, i canali mediatici hanno semplicemente dato uno spessore al crescente e repentino interesse verso questa materia. Riassumendo i termini della questione, ci sono due tipi di utilizzo dei big data. Uno coinvolge semplicemente la ricerca, l’ordinamento, l’abbinamento, la concatenazione e così via. Ad esempio, se vogliamo trovare delle indicazioni su Google maps, possiamo facilmente sapere quanto dista la fermata dell’autobus e dove è dislocato il negozio in cui abbiamo bisogno di rifornirci. Ma l’altro uso, e la mia sensazione è che in questo secondo aspetto ci siano molti più problemi, coinvolge l’inferenza statistica. Ossia, quando non vogliamo sapere cosa si cela nei dati ma quali dati avremmo potuto raccogliere in passato o quali potremmo raccogliere in futuro. Cosa accadrà domani? Quale medicina migliorerà la nostra salute? Qual è il vero valore di qualche variabile? Cosa sarebbe successo se le cose fossero andate diversamente? Traduzione di E. Di Nardo Mentre gli strumenti computazionali sono le chiavi per usare efficientemente i big data, gli strumenti statistici sono le chiavi per maneggiarli e proiettarli nel futuro. Se i big data sono un altro modo di chiamare il data mining (guardandoli come delle risorse piuttosto che come degli strumenti) allora l’esperienza con il data mining può insegnarci qualcosa. Ad esempio potremmo cominciare a credere che le scoperte davvero interessanti e di valore siano poche e distanziate nel tempo, che molte scoperte non siano di alcun interesse oppure siano ovvie, se non già note, o addirittura frutto di errori. Perché gli insiemi di grandi dati sono talvolta il risultato di un accumulo di effetti collaterali di qualche altro processo: provate a riempire il carrello di un supermercato, a decidere quale prescrizione è più appropriata per il paziente che avete di fronte, o quale voto dare all’esame di un vostro studente. Sono tutte operazioni i cui esiti possono variare secondo la dose di stress conseguente alla necessità di dover effettuare una scelta. Se c’è una cosa che gli statistici sanno fare è difendersi dai condizionamenti, ma altri forse no. A parte la questione degli errori, un’altra critica che viene mossa ai big data sta nell’uso del computer come necessario intermediario: il solo modo che si ha di guardare ai dati è attraverso grafici, modelli e strumenti di diagnostica. E’ impossibile pensare di esaminare i dati uno ad uno. Se i dati stessi rappresentano un passo nel comprendere il tipo di fenomeno sotto esame, allora guardarli attraverso lo schermo di un computer è un ulteriore passo. Non c’è pericolo che si insinuino nell’analisi dei fantastici errori o addirittura degli equivoci. Inoltre, se è vero che i big data aprono la strada verso nuove scoperte, questo non vuol dire che gli small data siano ridondanti, dove per small si intende di numerosità bassa. Anzi, potrei formulare quella che i matematici chiamano una congettura: il numero di insiemi di dati di taglia n è inversamente proporzionale a n. Ci sono in circolazione molti più insiemi small di dati che big, pertanto ci si deve aspettare un numero di scoperte proporzionalmente maggiore dagli insiemi piccoli di dati. Nessuno però deve dimenticare che i dati e l’informazione non sono la stessa cosa: è possibile che i dati siano tanti ma poveri di informazione. Il cosiddetto teorema dell’ammasso di letame può essere di qualche aiuto in questo contesto. Questo teorema –errato– dice che la probabilità di trovare una moneta d’oro in un cumulo di letame tende ad 1 se il volume del letame tende all’infinito. Dopo aver tenuto un seminario sul potenziale dei big data, dove sottolineavo la necessità di avere a disposizione strumenti effettivi per esaminarli e parlavo dei trabocchetti che essi celano, diverse volte mi è capitato di parlare con persone, tipicamente provenienti dal mondo commerciale, che avevano contattato ricercatori affinché esaminassero la quantità massiccia di dati in loro possesso, ma senza trarne giovamento: non erano state trovate informazioni utili. E così siamo giunti al finale: per avere anche una piccola speranza di estrarre qualcosa di utile dai big data e per superare i tranelli di cui ho parlato prima, sono vitali gli strumenti statistici inferenziali. Traduzione di E. Di Nardo