Home Blog Sfruttare la potenzi ...

Sfruttare la potenzialità della Data Integration attraverso i Data Lake

Marco Belmondo

di Marco Belmondo (Chief Marketing Officer del gruppo Datrix)

Il termine data integration fa riferimento all’unione di dati provenienti da diverse fonti, al fine di creare una vista unica di un determinato processo o unità di analisi. La fase che porta ad avere dati aggregati è molto delicata: secondo i dati dell’Osservatorio Big Data & Business Analytics del PoliMI, nel 2020 solo una PMI su quattro si occupa di integrare dati interni e, nelle grandi aziende, la maggior parte non è soddisfatta degli strumenti in uso per l’integrazione di dati interni ed esterni.

La necessità di dati aggregati

Ma perché è così importante avere dati aggregati? Unire dati che provengono da diverse fonti, eventualmente anche con formati eterogenei, è fondamentale per poter svolgere analisi più complesse. Si pensi ad esempio all’analisi dei dati dei clienti: se non si sfruttano le potenzialità della Data Integration, non sarà possibile raggiungere un approccio veramente omnicanale. Ciò significa riuscire a conoscere i clienti a 360°, seguendoli su diversi canali, sia digitali sia tradizionali. Sono molte altre le applicazioni in cui l’integrazione dei dati può svolgere un ruolo fondamentale. Un ulteriore esempio è l’ambito delle frodi. Per identificare un potenziale frodatore, mettere insieme dati che provengono da diverse fonti può davvero fare la differenza. Inoltre, l’integrazione di dati esterni può aiutare l’azienda nelle decisioni strategiche, analizzando il comportamento dei competitor o approfondendo la conoscenza del mercato.

In sintesi, per passare da un approccio limitato di Business Intelligence tradizionale allo sviluppo di Advanced e Augmented Analytics, non si può fare a meno di partire dalle fondamenta: dati integrati.

Le tecnologie di data integration: il Data Lake

Negli ultimi decenni, con l’avvento dei Big Data, anche le tecnologie di integrazione dei dati si sono dovute adattare a gestire dati molto più complessi, di ampi volumi e, per definizione, eterogenei per fonte e formato. In un contesto tradizionale, le aziende utilizzavano un approccio a silos all’integrazione dei dati, costruendo di fatto silos tecnologici per le diverse funzioni aziendali. Il passaggio successivo ha portato le aziende a strutturare dei data warehouse, ossia dei “magazzini” unificati, volti a raccogliere e avere i dati integrati. I data warehouse sono però adatti a gestire soltanto dati strutturati e, per lo più, dati interni.

Per gestire i Big Data, però, servono tecnologie ancora più flessibili. Per questo, sono stati introdotti i Data Lake. Letteralmente “lago di dati”, i Data Lake permettono di immagazzinare i dati nel formato grezzo, in questo modo è possibile mettere insieme dati molto eterogenei e gestire anche dati non strutturati, quali documenti, immagini, video o file audio. Il Data Lake può essere costruito on-premises o sfruttando le tecnologie di Cloud Computing.

Per loro natura, i Data Lake sono estremamente flessibili e molto scalabili. Permettono dunque di gestire dati complessi con una elevata granularità, a tutto vantaggio di coloro che svolgono analisi sui dati, i quali non possono accontentarsi di metriche di sintesi ma devono partire dai dati grezzi per applicare modelli predittivi o di ottimizzazione.

Data Integration: soluzioni e use case

3rdPlace – data-driven tech company specializzata nello sviluppo di soluzioni di Data Intelligence e Data Modeling su clienti e utenti – sfrutta anche le tecnologie cloud offerte da Google per implementare nelle aziende in maniera molto rapida soluzioni di integrazione dei dati. Decidere di investire in queste soluzioni porta quindi a risultati certi, accedendo a tecnologie allo stato dell’arte con orizzonti temporali molto brevi. 3rdPlace ha sperimentato con numerosi clienti queste soluzioni.

Citiamone qui un paio di esempi:

  1. Data Integration per la costruzione di una strategia di web analytics: l’integrazione dei dati può di fatto arrivare ad unificare un’azienda, soprattutto se si tratta di organizzazioni multinazionali. Avere i dati integrati significa ad esempio poter strutturare una strategia di analisi dei dati web unica e univoca e, in tal modo, aumentare l’efficacia delle proprie scelte di Marketing.
  2. Data Integration per sfruttare le opportunità degli Alternative Data: con Alternative Data si intendono insiemi molto grandi di dati non tradizionali, spesso non strutturati e non sensibili, estratti da fonti digitali molto eterogenee. Alcuni esempi sono le conversazioni sui social media, le informazioni sulla geolocalizzazione dei dispositivi mobili o le immagini raccolte dai satelliti e da piattaforme di e-commerce. Questi dati possono essere di grande valore, ma per sfruttarli al meglio è necessario saperli relazionare con i propri dati interni, con tutte le azioni di pulizia, normalizzazione e preparazione che ciò comporta.

Ma attenzione!

Avere i dati integrati è un prerequisito fondamentale ma non sufficiente per estrarre valore dai dati. Nel corso degli anni, i professionisti del settore hanno difatti utilizzato anche il termine Data Swamp – letteralmente palude dei dati – per indicare quei Data Lake che, per mancanza di attività di Data Governance e delle necessarie competenze, diventano dei grandi calderoni, in cui i dati vengono immagazzinati ma non effettivamente utilizzati.

È per questo che 3rdPlace risponde a queste necessità con le soluzioni di Augmented Analytics – la piattaforma DataLysm ad esempio – che si occupano di trasformare velocemente i dati in suggerimenti e azioni di business.