Home Blog Cosa sono i Big Data ...

Cosa sono i Big Data e perché sono utili per analisi e strategie

3rdPlace

di Francesca Morpurgo

Quasi ogni nostra azione ormai produce dati: fare una telefonata, navigare in internet, utilizzare uno smart assistant, guidare e consultare google maps o altri servizi analoghi, prenotare un servizio, interagire sui social, pagare qualcosa utilizzando un sistema cashless. Il tutto è enormemente incrementato dalla sempre maggiore diffusione della cosiddetta “internet of things” (IoT) in cui oggetti smart (secondo alcune stime sono già più di 30 milioni), connessi fra di loro e alla rete, producono incessantemente nuovi dati.

La quantità di dati prodotti ogni giorno è tale (siamo ormai nell’ordine di 2,5 quintilioni di gigabyte al giorno e di 44 zettabyte di dati circolanti in totale, più del numero di tutte le stelle dell’universo) che riuscire a gestirla diventa sempre più sfidante.

La novità è che tutti questi dati, che sono ovviamente in formato grezzo e non ordinato, ora non vanno più dispersi ma possono essere e di fatto vengono raccolti, analizzati ed utilizzati. Imparare a leggere ed interpretare questa enorme massa di dati diventa quindi un vantaggio competitivo essenziale, andando a creare una reale differenza fra aziende che riescono a cavalcare l’onda dei dati e aziende che invece ne sono travolte.

Cosa sono i big data

Quando dati cessano di essere “normali” e diventano “big”? Il modello ideato per definire i big data, e che viene utilizzato ancora oggi, risale al 2001, quando Doug Laney – attualmente analista presso il Gartner Group – utilizzò per definire i big data il cosiddetto “schema delle tre V”:

1. Volume

Come si accennava, ogni giorno viene prodotta globalmente una quantità incredibile di dati (approssimativamente 2,5 quintilioni di byte). Tali dati sono principalmente destrutturati (non sono cioè ordinati, classificati e immagazzinati in un csv o in un database) e oltre ad essere tantissimi possono assumere la forma più varia (audio, video, immagini, testo, interazioni, etc). Quindi, caratteristica principale dei big data è la quantità, il volume appunto: questi dati sono tantissimi, e crescono ogni giorno.

2. Velocità

I dati non sono statici, ma crescono ogni giorno, ad una velocità pazzesca (mano a mano che cresce l’IoT, che nuovi dispositivi e/o persone vengono connessi ed interagiscono). E dunque ecco un’altra caratteristica chiave, la velocità intesa come velocità di crescita.

3. Varietà

Questi dati vengono generati da miriadi di fonti diverse e sono quindi per forza di cose estremamente eterogenei. Varietà dunque intesa come enorme diversificazione nella tipologia dei dati generati ed accessibili.

A queste prime tre caratteristiche se ne sono poi aggiunte altre, portando le V a 6.

4. Valore

I dati non hanno valore in sé ma relativamente all’impiego che se ne può fare in azienda. Dunque occorre valutare attentamente il rapporto costi/benefici delle analisi che si intende intraprendere, dato che per loro natura i big data sono costosi da utilizzare.

5. Veridicità
I dati essendo così tanti possono essere di diversissimo valore e affidabilità. Occorre quindi applicare un filtro a monte, assicurandosi che i dati utilizzati siano accurati e veritieri.

6. Variabilità
E qui la complessità aumenta ancora, dato che viene introdotto un fattore importantissimo, il contesto, che è in grado di cambiare radicalmente il senso e il significato di un dato e che va quindi attentamente considerato.

A cosa servono i big data

A saperli leggere ed utilizzare, i big data aprono scenari interessantissimi per tutti i tipi di business. Rappresentano infatti una conoscenza estremamente fine e granulare riguardo a più o meno tutti gli ambiti, dalla salute alle propensioni di acquisto, dai rischi in campo finanziario alla previsione su quali prodotti verranno probabilmente preferiti dagli utenti. Possono ovviamente essere utilizzati anche in campo politico, per prevedere ed orientare le scelte degli elettori, il che ovviamente apre a scenari inquietanti ed al limite della legalità. Possono essere d’aiuto nell’e-commerce per stabilire le politiche di prezzo per un certo prodotto o servizio, andando a identificare un perfetto equilibrio fra domanda e offerta e arrivando anche a poter proporre un “prezzo personalizzato”. Potrebbero essere di grandissimo aiuto nel migliorare i chatbots e gli assistenti virtuali, analizzando e quindi prevedendo le domande che potrebbero fare gli utenti. In campo assicurativo possono essere utilizzati per definire la polizza perfetta per un dato utente o per prevedere il rischio. Inutile dire che potrebbero essere vitali nell’internet advertising, mettendo in grado – al limite – di servire campagne veramente one-to-one. Ma le applicazioni sono moltissime altre (per esempio pensiamo alla mobilità nei grandi centri urbani), è proprio il caso di dire che qui il confine è la propria immaginazione insieme alla propria capacità tecnica. Ovviamente questo pone questioni di privacy non indifferenti, e crea il bisogno di strumenti normativi adeguati, che solo parzialmente esistono già. Ad esempio il GDPR non è certo ideato avendo il problema dei big data in mente.

‘Master i big data’ dunque a partire da oggi deve essere il nuovo mantra delle aziende, perché non farlo vorrebbe dire restare indietro.

Cosa bisogna fare, concretamente, per utilizzare i big data?

Sembrerà banale, ma per prima cosa è vitale effettuare un’attenta analisi dei propri bisogni di business, le motivazioni cioè che spingono l’azienda a intraprendere un lavoro sui big data e quali risultati e vantaggi intende ottenerne. Lavorare i big data è infatti costoso, richiede figure specializzate (data scientist, data engineer, data analyst, chief data officer) e dotazioni informatiche non indifferenti e dunque bisogna valutare attentamente se il gioco vale la candela e soprattutto ideare un progetto di analisi che sia in grado di soddisfare i propri bisogni: lavorare in eccesso sarebbe inutile e in difetto sarebbe dannoso.

Una volta fatto questo ci si può dedicare a mettere in piedi un cosiddetto processo ETL, dove ETL sta per estrazione, trasformazione e caricamento (load) dei dati. Come si è detto i dati vengono generati e sono quindi disponibili in forma grezza, non standardizzata. Vanno quindi estratti dai luoghi in cui risiedono e sono immagazzinati (database, applicazioni, etc) e salvati in un formato standardizzato e leggibile. I dati vanno quindi normalizzati, cioè vanno eliminati dati duplicati e corrotti, e vanno ordinati e categorizzati. Nella terza fase i dati vengono caricati in un unico repository, un data warehouseo un data lake, pronti per essere analizzati.

Sui dati così trasformati possono essere condotte analisi descrittive (viene cioè analizzata e interpretata la situazione attuale), predittive (i dati vengono utilizzati per rispondere a domande circa ciò che potrebbe accadere nel futuro), prescrittive (il frutto dell’elaborazione sono strumenti a supporto dei decision maker per aiutarli a individuare correttamente le strategie da intraprendere) e infine automatizzate (i dati vengono analizzati e sulla base delle risultanze vengono adottate dal sistema delle decisioni, senza intervento umano).

E’ evidente che il trattamento e l’analisi dei big data è cosa molto complessa. A meno di non essere in grado di investire risorse ingenti nell’impresa, sia umane che economiche, conviene affidarsi ad aziende specializzate – come quelle facenti parte del gruppo Datrix – che possano supportare il management in questo processo, esternalizzando anche alcuni dei passaggi chiave.