I big data sono l’oro nero della nostra epoca. Le aziende li vogliono, le organizzazioni governative li bramano, il web è persino bulimico e, per quanto possa sembrare un mondo organizzatissimo dove ogni tassello si incastra alla perfezione in un mosaico rivelatore, la realtà rischia di essere molto diversa.
Per fare un po’ di ordine, cominciamo con la definizione di big data, compito che cerchiamo di assolvere in autonomia perché tra le tante spiegazioni reperibili in rete, nessuna è perfettamente pertinente (pur non essendo sbagliata): i big data sono una mole di informazioni tanto grande da non essere gestibile soltanto con i normali database relazionali in commercio (Oracle, Microsoft SQL, MySQL, eccetera…) e che pretendono un mix di tecnologie supplementari per essere analizzati, organizzati, gestiti e utilizzati.
Non si può avere una misura esatta, una soglia al di sopra della quale si può usare il termine big data in modo lecito né, del resto, avrebbe senso averne una perché si tratta di una quantità di dati in continua evoluzione.
L’elenco di tutti i numeri telefonici degli europei o degli americani non è abbastanza grande per parlare di big data, così come non lo è tutto ciò che può essere contenuto in un hard disk o in un device mobile.
La diffusione dei big data è stata resa possibile da quello che, in gergo, si chiama commodity hardware open source, ovvero dispositivi a prezzi accessibili che sono generalmente compatibili con altri dispositivi di questo tipo, spesso collegati in rete per avere più potenza di calcolo e di elaborazione.
I big data, oltre alla quantità, sono caratterizzati da altri indici, di norma riassunti nella “regola delle 5V”.
V come volume, ovvero la quantità di dati. Come scritto, sarebbe insensato tracciare una soglia al di sopra della quale il volume è inseribile nella famiglia dei big data; per dare però un’idea di quanti dati generiamo, questa infografica aggiornata in tempo reale è d’aiuto. E i dati generati riguardano molti altri servizi, online e offline, non sono certamente confinati alle nostre attività sul web.
V come varietà. La natura dei dati è variegatissima: foto, video, audio, testo (famiglia eterogenea e molto ampia in cui si inseriscono anche gli hashtag, informazioni relative alle coordinate geografiche, eccetera…).
V come variabilità. Un dato è un dato, ma può avere significati diversi. In una discussione su un social media, ad esempio, si possono esprimere apprezzamenti ironici nei confronti di un servizio o prodotto: scrivere “le scarpe di quel brand sono resistentissime” può avere un senso diverso a seconda del contesto e il senso va colto in tutte le sue sfaccettature, altrimenti si entra in possesso di un dato fuorviante e non veritiero.
V come velocità, ossia la velocità con cui i dati vengono generati e memorizzati. Uno dei problemi più sentiti è che la velocità di raccolta delle informazioni, è spesso maggiore della capacità di elaborazione degli stessi. (Altro capitolo, è la capacità di fare tesoro delle informazioni trattate).
V come veridicità. I dati devono essere congruenti e affidabili. Se ci si appoggia su dati poco accurati, le analisi fatte daranno risultati claudicanti.
V come valore. Indice che fa parte di tutte le iniziative aziendali, occorre che un progetto di analisi di grandi moli di dati dia risultati apprezzabili in termini di costi/benefici e in termini di ritorno di investimento e profitti.
Questo elenco, come tutto l’ecosistema dei big data, è in continua evoluzione. Con il passare dei mesi altri parametri possono aggiungersi.
Spesso ci si riferisce ai big data e alla business intelligence come se fossero termini interscambiabili, in realtà, sono solo lontanamente sovrapposti: il termine big data riguarda la statistica inferenziale e i sistemi non lineari per individuare correlazioni tra dati e prevedere le evoluzioni future (del mercato, dei clienti, dei loro comportamenti, eccetera…). Con il termine business intelligence si fa leva soprattutto sulla statistica descrittiva e si alimenta di una quantità limitata di dati uniformati (puliti) applicati a modelli di analisi relativamente semplici.
Giuditta Mosca, Bussiness Insidere