di Emiliano Sammassimo (Head of SEO di ByTek, gruppo Datrix)
Le V dei Big Data: quante sono e soprattutto quali sono.
Da molti anni si parla sempre con maggior frequenza di Big Data, spesso in opposizione ai dati tradizionali. Ma quanto devono essere grandi questi dati per essere definiti Big?
In realtà, non è solo una questione di grandezza, in cui si passa da terabyte a dimensioni decisamente maggiori, ma soprattutto i big data devono soddisfare alcune caratteristiche fondamentali.
Si parla infatti di 4 V dei Big Data. Ma oggi in molti parlano anche di 5 V o addirittura di 6.
Vediamo allora nel dettaglio, quali sono le 4 caratteristiche fondamentali di Big Data e anche le ultime definizioni. Parliamo solo delle definizioni, tenendo conto di aver già chiarito la modalità di salvataggio e gestione dei Big Data con i concetti e le differenze tra data lake e data warehouse.
Volume: riguarda la quantità dei dati che vengono generati dai sistemi attraverso i quali sono raccolti e salvati, l’aggiornamento dei dati è costante e continuativo.
Variety: i dati si dividono in dati strutturati e non strutturati, con i primi si fa riferimento a dati riconoscibili mentre con i secondi a dati grezzi, un esempio calzante possono essere le pagine web. Per varietà, si intende la differenziazione delle fonti di dato che vengono salvati, non solo sistemi proprietari ma anche social network, sensori come beacon o altri dispositivi di prossimità e simili.
Velocity: da molte piattaforme i dati sono costantemente aggiornati e in continuo cambiamento. Molti dispositivi e fonti sono in grado di raccogliere e aggiornare i dati in tempo reale, la vera difficoltà è analizzarli in tempo reale e prendere decisioni sulla base dei cambiamenti dei dati rispetto al momento. Il cambiamento, in questo caso come negli altri, è epocale e riguarda non solo la tecnologia alla base ma anche i modelli di business e le dinamiche aziendali. Dati in tempo reale che cambiano velocemente significano profondi cambiamenti non solo nelle scelte ma anche nelle dinamiche aziendali.
Veracity: ovvero affidabilità. Il detto dice “avere dati sbagliati è peggio di non averne affatto”. Per questo una delle caratteristiche fondamentali dei Big Data è la loro affidabilità. La velocità della raccolta dei dati e la varietà delle fonti devono poter essere integrate e raccontare il vero, in una parola parlarsi. Raccontare il vero, come cambiano e variano rispetto alla differenza delle fonti e quanto spesso si aggiornano. Avere, e dunque analizzare, dati non veritieri, può essere molto più rischioso di non avere alcun dato a disposizione.
Le 6 V dei Big Data
Abbiamo appena chiarito cosa sono e quali sono le caratteristiche fondamentali delle 4 V dei Big Data. Vediamo quali sono quelle aggiuntive, cioè la quinta e la sesta che, per molti business e processi di analisi, acquisiscono significati e importanza sempre maggiori.
Variability: ovvero variabilità, molti dati in diversi formati e provenienti da fonti differenti. Di fondamentale importanza è tenere conto delle differenze dei dati delle diverse fonti e della frequenza con la quale sono aggiornati.
Value: il valore. Oggi i dati sono considerati alla stregua dei beni rifugio di un tempo. Il loro valore però non si limita alla mera raccolta, bensì alla loro analisi e al valore degli analisti che tutti i giorni hanno a che fare con i dati. In questo senso le loro caratteristiche e i loro significati è fondamentale, affinché la massa dei dati raccolti acquisiti significato e valore per il business al quale fanno riferimento.
Le caratteristiche delle V dei Big Data sono fondamentali per la loro affidabilità e per la loro integrazione in sistemi di analisi che servono a supportare il business e a orientare decisioni e pianificazioni. 3rdPlace progetta e sviluppa sistemi di integrazione di Big Data da più fonti, leggi ad esempio la case history di Italo Treno.