di Marco Belmondo (Chief Marketing Officer di Datrix)
Quando nel 2001 Doug Laney definì i Big Data come dati caratterizzati da almeno una di queste tre caratteristiche: volume, varietà e velocità, i più si concentrarono sulla prima parola, volume. Con il passare degli anni, sia nel mondo accademico sia nel mondo industriale ci si sta rendendo conto che il vero valore dei dati risiede nella varietà, intesa come eterogeneità delle fonti e dei formati.
Proprio a tal proposito, è sempre più frequente sentir parlare di dati non strutturati. Con questo termine si intendono quei dati che non hanno una struttura ben definita, per tradurre in parole semplice si tratta di testi, immagini, video o file audio. Questi dati – siano essi ad esempio documenti, foto o un tweet sul relativo social network -, come è semplice comprendere, non hanno una struttura ben definita o meglio standardizzabile. Ciò significa che non è possibile organizzarli in forma tabellare (così come invece si fa con i fogli elettronici).
Nonostante questa prima difficoltà, sono ormai numerose le aziende che si stanno avvicinando a questi temi e sono sempre di più le startup che offrono soluzioni specifiche per l’analisi di testi o immagini. Proviamo a comprendere in questo articolo tre punti fondamentali per approcciare l’utilizzo di dati non strutturati: perché utilizzarli, con quali tecnologie e con quali metodologie.
Le applicazioni che è possibile sviluppare con dati non strutturati
Quali sono i possibili casi d’uso da approcciare in azienda grazie all’utilizzo di testi o immagini? Innanzitutto, è bene dividere i due ambiti, caratterizzati da alcune sfide comuni ma anche da tecnologie e tecniche molto differenti.
Analisi dei testi e comprensione del linguaggio naturale
Nel mondo del linguaggio naturale, l’applicazione più conosciuta è sicuramente il chatbot. Si tratta di una soluzione che riesce a riprodurre una conversazione in linguaggio naturale. Le potenzialità dei chatbot sono davvero numerose: in alcune aziende vengono utilizzati internamente per aumentare l’efficienza di alcuni processi. Pensiamo alla gestione dei ticket – ad esempio nel supporto alla forza vendita o nella relazione del business con l’IT. Il chatbot, inoltre, può avere un ruolo rilevante anche nella relazioni con il consumatore finale, dando all’azienda l’opportunità di essere reperibile 24 ore su 24, con costi ridotti. In sintesi, ci sono alcuni aspetti che, anche con chatbot molto semplici, possono essere automatizzati, tuttavia è molto difficile creare dei chatbot realmente intelligente ed autonomi nel rispondere alle domande più disparate. Ci stanno provando i giganti tech del settore, con lo sviluppo di virtual assistant sempre più performanti (si pensi a Siri, Google Home, Cortana).
Nell’utilizzo di dati non strutturati, rimanendo nell’ambito dell’analisi dei testi (si tratta di algoritmi di Natural Language Processing), possono essere sviluppate applicazioni di sentiment analysis volte a comprendere la reputazione dell’azienda sul web, ad esempio, oppure applicazioni di credit scoring che si avvalgono sia di dati testuali alternativi sia di fonti dati più tradizionali per comprendere il merito creditizio di un soggetto o di un’azienda (Scopri le applicazioni di Finscience su queste tematiche!)
Analisi delle immagini e dei video
Spostandosi invece nell’analisi delle immagini e dei video, oltre ad ambiti quali la sicurezza (pensiamo ad un algoritmo in grado di riconoscere se uno sconosciuto si introduce in una proprietà privata!), vi sono numerose applicazioni già in essere sia nel campo manifatturiero sia nel campo media. Nel primo caso, si tratta per fare degli esempi di progettualità volte ad automatizzare il controllo qualità dei prodotti o ottimizzare la gestione dei magazzini. Nel secondo, si pensi ad applicazioni volte ad estrarre in maniera automatica informazioni dai video (si parla di Image Captioning) oppure analisi di volti per coglierne l’emozione davanti ad una pubblicità.
Anche altri settori, potrebbero beneficiare dell’analisi di dati non strutturati.
Utilizzare dati strutturati e non: come farsi trovare pronti
Iniziare a valorizzare i dati non strutturati non è semplice.
Prima di tutto, è necessario investire in nuove tecnologie che possano rispondere ad esigenze differenti. L’offerta dei principali player tecnologici sempre di più si compone di strumenti – in primis i database NoSQL/NewSQL o il data lake – che permettono di immagazzinare anche dati che non hanno una struttura ben definita.
In secondo luogo, sarà necessario acquisire competenze specializzate, in grado di sviluppare algoritmi di Natural Language Processing o Computer Vision. Questi algoritmi, su cui la ricerca è in grande fermento, stanno avendo un impressionante aumento di efficacia grazie alle tecniche di Machine Learning.
In ultimo, la valorizzazione dei dati non strutturati avverrà a pieno solo nell’integrazione con fonti dati più tradizionali (di formato strutturato): per avviare questo percorso è dunque necessario affrontare problematiche di Data Integration non sempre banali.
Per concludere, iniziare a pensare a fonti non strutturate come fonti dati da cui trarre un valore di business e grazie alle quali automatizzare alcuni processi implica un cambiamento culturale e l’avvio di azioni di change management, che supportino gli utenti finali nell’utilizzare queste nuove applicazioni.