Home Blog Classificazione dei ...

Classificazione dei documenti con Modelli di NLP: quali utilizzare e per quali analisi

Marco Belmondo

NLP e classificazione: binomio perfetto

Negli ultimi anni, con l’abbassamento del costo di processamento delle informazioni (grazie soprattutto al boom del cloud computing) abbiamo assistito alla nascita e al consolidamento di diversi provider che forniscono servizi di analisi più o meno sofisticati di documenti e/o contenuti, volti a estrarre informazioni e produrre valore.

Si passa da strumenti general-purpose utilizzati nella vita di tutti i giorni (come gli spam classifier di Google, gli algoritmi di moderazione di Facebook o i suggeritori di articoli di Amazon), a soluzioni special-purpose cucite su misura per aziende specifiche. Nell’implementazione di tali soluzioni è spesso possibile sfruttare metodologie di machine learning e NLP (Natural Language Processing), in modo da estrarre informazioni e metadati anche da testi molto complessi (che costituiscono la maggior parte delle informazioni in nostro possesso).

Infatti, possediamo spesso documenti non strutturati (articoli di giornale o news online, comunicati ufficiali, review di clienti), che possono essere completamente testuali o possono contenere dei contenuti multimediali. Quale che sia la natura dei dati, quello di cui spesso necessitiamo per reportistica o per un’analisi aggregata è la loro classificazione. Scopriamo in questo articolo quali sono le tecniche più utilizzate per questo task e come l’NLP può essere la scelta vincente.

Cosa è il NLP?

Con Natural Language Processing si intende la capacità di un software di capire il linguaggio umano sia scritto che verbale utilizzando applicazioni di intelligenza artificiale. Già da metà del secolo si è cercato di risolvere questo tipo di problema con analisi di tipo linguistico sulla struttura del linguaggio contenuto nei documenti. Successivamente, l’importanza del NLP è cresciuta di pari passo con la potenza computazionale che è possibile investire su questi task e – di conseguenza – con i risultati ottenibili.

Analogamente ai sensi dell’essere umano, con vari approcci di NLP è possibile acquisire e analizzare diverse sfaccettature di un contenuto multimediale.
Va notato che nelle metodologie di NLP si includono spesso anche tutte le tecniche di data preprocessing necessarie a pulire il testo da quanti più “rumori” possibili e ad aiutare l’elaborazione successiva dei vari algoritmi.

Quali modelli NLP usare per le nostre analisi

In passato, i task di classificazione documenti erano portati avanti (soprattutto) manualmente, con l’uso di semplici regole “statiche” (come espressioni regolari, ovvero sequenze in cui determinati dati occupano sempre la stessa posizione).

Una tipologia di approccio, questa, non proprio efficiente, sia dal punto di vista della precisione che della manutenibilità delle regole stesse, che vanno tenute aggiornate man mano che si ricevono nuove tipologie di documenti.

Grazie alle nuove tecnologie, però, è ora possibile procedere con una metodologia più efficace andando ad applicare modelli di NLP per processare e categorizzare i nostri documenti in modo efficiente e preciso.

Sentiment Analysis

Se i documenti da classificare sono delle recensioni oppure delle opinioni di clienti, l’approccio migliore da applicare è tendenzialmente la sentiment analysis. Creando un modello di questo tipo potremmo andare a raggruppare tra loro vari documenti che sono affini nei contenuti o nel linguaggio, oppure associare questi contenuti a delle “etichette” predefinite (valutazioni positive o negative, ma anche vere e proprie scale di valutazione).

Topic labelling

Altro tipo di approccio da seguire è quello del topic labeling: quante volte abbiamo avuto bisogno, soprattutto per rapidità in ricerche ed analisi, di capire di cosa parla un testo? Grazie al topic labeling possiamo sia estrarre delle keyword dai nostri testi, che associarle a una o più etichette di un certo dizionario. Questa tecnica è usata spesso per ordinare ed organizzare sia dati storici che news.

Language Detection

Infine, un ultimo tipo di approccio che potremmo voler seguire – soprattutto in contesti di multinazionali o aziende con molti contatti esteri – è quello della language detection. Se da un lato, infatti, riusciamo facilmente a identificare se un testo è scritto in lingua inglese o in una delle altre lingue neolatine, non possiamo dire lo stesso per le lingue orientali.

Effettuare un corretto routing di documenti da analizzare o tradurre al giusto destinatario può spesso volere dire guadagnare tempo utile nella risposta rispetto ad un competitor e contribuire a migliorare l’immagine e la posizione di mercato della nostra azienda.

Conclusioni

Come abbiamo visto, questi sono solo alcuni dei vari metodi con cui possiamo portare avanti i nostri task di classificazione dei documenti con modelli NLP. Quale che sia l’approccio che preferiamo seguire, l’obiettivo principe è sempre lo stesso: ottimizzare, ripartendo efficientemente le nostre risorse su attività che possano valorizzarle al meglio.
Oltre all’aumento della produttività (numericamente misurabile), potremo anche apprezzare un tangibile miglioramento della qualità del lavoro dei nostri collaboratori: chi non vedrebbe l’ora di utilizzare sofisticati strumenti anzichè smistare email manualmente?