Big data: cosa sono e a cosa servono?
4 aprile, 2023
9 min
Cosa sono i big data? In breve, è l’immensa quantità di informazioni che internet genera, tale da superare le capacità degli strumenti progettati per analizzarle ed immagazzinarle. Questo è il significato di big data ma, per capire meglio cosa sono e a cosa servono, facciamo qualche esempio e cerchiamo una definizione più precisa.
Cosa sono i big data: significato e definizione
Una recente ricerca di statista.com, potrebbe introdurci a cosa sono i big data, significato che poi riassumeremo in una definizione. In 60 secondi su internet vengono inviati 16 milioni di messaggi e più di 230 milioni di email, avvengono circa 6 milioni di ricerche Google e vengono acquistate criptovalute per oltre 90 milioni di dollari.
Queste azioni portano con sé una mole di dati così ampia da rappresentare proprio un esempio di big data o megadati; tuttavia, non c’è una grandezza “minima” per definizione. Questa soglia, se esistesse, cambierebbe nel tempo, perché i volumi crescono esponenzialmente: ad esempio, si stima verranno generati 120 zettabyte (1 miliardo di terabyte) solo nel 2023, in confronto ai 97 del 2022 e ai 180 del 2025.
La definizione di big data, quindi, è “dinamica”: risponde al caso in cui le informazioni sono tanto complesse da rendere necessaria la creazione di nuove tecnologie, al fine di immagazzinarle ed elaborarle in un tempo accettabile. La possibilità è concreta, anzi è già realtà, perché l’evoluzione degli hardware e dei software non segue il ritmo di crescita dei dati. Catturarli e processarli è sempre stata una sfida, tanto che già nel 1958 IBM coniò il termine “business intelligence” per indicare l’abilità di comprendere le relazioni tra i dati, al fine di guidare le decisioni future.
Nel 2001, invece, Douglas Laney creò il modello delle “3V”, elencando le caratteristiche utili a spiegare cosa sono i big data:
- Volume – la quantità di dati che fonti differenti producono, dai social network ai sensori dell’Internet of Things, passando per gli acquisti sugli exchange crypto e i marketplace per NFT;
- Varietà – esistono diversi tipi di informazioni online, ma è possibile dividerle in strutturate e non strutturate. Talvolta si considera la sfumatura delle “semistrutturate”, un livello dalle qualità miste;
- Velocità – la comunicazione istantanea genera un flusso elevatissimo di informazioni al secondo, per cui abbiamo bisogno di strumenti in grado di coglierle e analizzarle “in tempo reale”.
Questo schema tridimensionale ci aiuta ancora oggi a capire il significato di big data, ma nel tempo è stato integrato con altri parametri. Innanzitutto, abbiamo la quarta V di valore: analizzare le attività degli utenti online rappresenta un’occasione di profitto, le aziende ad esempio le traducono in campagne marketing mirate o in previsioni sul futuro del settore.
In questo contesto, il grado di affidabilità contribuisce alla definizione di big data: troviamo la quinta V nella veridicità delle informazioni, fondamentale per formulare stime utili ed accurate. Inoltre, possiamo riconoscere una certa variabilità nei formati dei dati, essenzialmente la varietà in rapporto al tempo, ed è infine necessaria una visualizzazione per spiegarli, ovvero grafici e tabelle.
Dove vengono raccolti i big data?
Abbiamo quindi ben 7 V per esprimere cosa sono i big data, ma per alcuni studiosi non ne esauriscono il significato. All’atto pratico, infatti, è possibile evidenziare altre caratteristiche, derivanti dai processi di memorizzazione ed analisi.
Curiosità
Il termine big data è stato coniato da John Mashey nel 1998 e presentato in una serie di slide, denominata “Big Data … and the Next Wave of InfraStress.”
Ad esempio, si valuta l’esaustività delle informazioni, in base a quante e quali fonti siano state prese in considerazione. Secondo un’altra definizione di big data, infatti, la loro complessità è tale che sarebbe impossibile comprenderli se esaminati in porzioni più piccole. A tal proposito, è utile approfondire la differenza tra dati strutturati e non strutturati: nel primo caso, le proprietà e il formato delle informazioni sono predefiniti, mentre nel secondo non si può costruire una tabella a “campi fissi”.
In altre parole, le caratteristiche dei dati strutturati sono già note: le transazioni, ad esempio, avranno sempre una data, un’ora, un mittente, un destinatario ed un valore scambiato. I dati non strutturati, invece, sono contenuti impossibili da catalogare in modo sistematico: immagini, video, audio e testi, sempre differenti per forma e dimensioni. Esempi di big data non strutturati, quindi, sono i post su Instagram o i tweet e si stima rappresentino l’80% del totale.
Date queste differenze, esistono due tipi di database per immagazzinare e analizzare i big data:
- Data warehouse: utili per i dati già strutturati, che abbiano dunque superato il processo ETL (Extract, Transform, Load), ovvero l’estrazione e trasformazione precedenti al caricamento nel database. In pratica, le informazioni sono già “pulite” da ridondanze e organizzate per relazione, dunque pronte alle indagini.
- Data lake: raccolgono dati non strutturati, grezzi e senza “filtri”, che verranno ordinati solo al momento dell’eventuale analisi. Questo approccio è meno dispendioso in termini operativi, ma richiede maggiore spazio. La tecnologia del cloud storage è adatta allo scopo e, soprattutto, ha basso costo.
Le aziende, tuttavia, preferiscono combinare le funzionalità dei due tipi di database in un ’unica data lakehouse, adatta sia a dati strutturati che non strutturati, per maggiore efficienza e affidabilità.
Il significato di big data, dunque, passa anche dalla granularità, ovvero il livello di dettaglio delle informazioni. In pratica, immaginando una tabella, questo aspetto misura quante colonne di “qualità” esistono per ogni elemento inserito nelle righe. A tal proposito, questi database devono essere scalabili ed estensibili: in poche parole, rispettivamente dovremmo poter aggiungere nuovi elementi e campi da “riempire”.
A cosa servono i big data: esempi e applicazioni
Ora che abbiamo iniziato a capire cosa sono i big data, cerchiamo di far luce anche sulla loro funzionalità. Gli scopi dei megadati sono essenzialmente 3 e derivano da diversi tipi di analisi, condotte su di essi:
- Descrittiva – studia lo status quo o i fenomeni del passato, sintetizzando e rappresentando i dati in grafici e formule, alla ricerca di relazioni che li leghino;
- Predittiva – i metodi statistici, in questo caso, sono applicati ai big data per fare previsioni sul futuro. Non si limita a descrivere la realtà, ma ne cerca le possibili cause per anticipare i prossimi eventi, che potrebbero ripetersi secondo gli stessi meccanismi;
- Prescrittiva – deriva dalla predittiva, perché rivolta al futuro, e fornisce direttive e soluzioni ottimali per affrontare specifici problemi.
Queste analisi sono condotte dai data scientist ma possono essere affiancati dall’intelligenza artificiale, che usa i big data come “campioni di training” per il machine learning. Oltre a descrivere e mettere in relazione le informazioni disponibili, infatti, le AI sono in grado di prevedere le prossime occorrenze, in base a leggi scoperte durante l’analisi. In particolare, i dati strutturati sono la base per i compiti “supervisionati” (come la regressione lineare), in cui l’intelligenza artificiale è guidata dalle “etichette”, mentre ai dati non strutturati sono applicati gli algoritmi non supervisionati (come il clustering), perché non hanno bisogno di alcuna linea guida per condurre le ricerche.
Conoscendo i tipi di analisi e il ruolo del machine learning, possiamo quindi comprendere come le aziende usano i big data e a cosa servono. Innanzitutto, i megadati sono raccolti e analizzati per creare modelli di previsione, così da anticipare le richieste degli utenti. In pratica, si progettano prodotti e servizi in base alle funzionalità di maggior successo online, cercando di soddisfare la domanda dei clienti. Netflix o Disney +, ad esempio, valutano le opinioni sulla prima stagione di una serie, osservano le interazioni sui social, così da pianificare le successive in base agli elementi apprezzati.
Allo stesso modo, le aziende possono sfruttare i big data per migliorare la customer experience: essenzialmente, generare impressioni positive negli utenti durante l’interazione con i prodotti o servizi, così da fidelizzarli o acquisirne di nuovi. Esempi di big data, utili al caso, sono i feedback raccolti con semplici form, le recensioni negli app store, ma anche i commenti ai post sui social. Infine, dall’analisi dei dati, è possibile individuare tentativi di frode, che potrebbero seguire schemi ricorrenti, così da migliorare la sicurezza di piattaforme come gli exchange.
Al di fuori del mondo di internet, troviamo altri esempi per spiegare a cosa servono i big data.
- Manutenzione predittiva: i sensori che monitorano il funzionamento delle automobili producono dati non strutturati, accompagnati da informazioni strutturate quali l’anno di immatricolazione, il modello o il tipo di carburante. Entrambi gli esempi di big data sono utili a prevedere possibili guasti, così da programmare in anticipo la manutenzione.
- Efficienza gestionale: in ambito industriale, l’analisi dei megadati è utile a migliorare i processi di realizzazione dei beni di consumo. Ad esempio, è possibile monitorare il tasso di “reso” e la generale domanda di mercato per ottimizzare la produzione futura.
Queste applicazioni ci aiutano a capire cosa sono i big data, ma hanno anche importanti implicazioni dal punto di vista della privacy. Le attuali normative obbligano le aziende ad avvertire i clienti quando vorrebbero raccogliere i loro dati. Inoltre, dovrebbe essere possibile rifiutare: ad esempio, ogni pagina web gestisce i consensi attraverso le opzioni dei cookie, i file che registrano le preferenze degli utenti. In passato, infatti, l’utilizzo improprio dei big data ha condotto a scandali come quello di Cambridge Analytica, che avrebbe sfruttato le informazioni legate a molti profili Facebook per avvantaggiare Trump durante le elezioni del 2016. Tuttavia, l’applicazione della tecnologia blockchain ad internet, rappresentata dal Web3, dovrebbe risolvere i problemi legati alla proprietà dei dati, dando un nuovo significato e definizione ai big data.