Home Eventi Esterno ICDSST 2022
evento concluso

ICDSST 2022

International Conferences on Decision Support System Technology 2022

Il 23 maggio le nostre Data Scientist Martina Roberta Cecchetto e Giulia De Poli hanno presentato a Salonicco un paper su ADVANCE (Automated Document Validation Aid with Nlp and Computer vision for fields Extraction). Si tratta della nostra applicazione avanzata per l’analisi documentale, basata su algoritmi di intelligenza artificiale.

23 Mag 2022

Abstract del paper

La Document Intelligence è un’attività complessa che sta diventando sempre più importante negli ultimi anni a causa della necessità di elaborare in modo efficiente i documenti fisici.

Diverse aziende, dal settore assicurativo a quello bancario, sono costrette a dedicare una grande quantità di ore di lavoro all’ispezione manuale dei documenti per convalidarli, estrarre e trascrivere le informazioni rilevanti. In questo contesto, cresce l’interesse per i sistemi automatici in grado di elaborare automaticamente i documenti per sostituire o supportare le operazioni manuali.

In questo lavoro proponiamo un’applicazione aziendale in grado di elaborare automaticamente i documenti fiscali ed estrarre i contenuti rilevanti in modo strutturato. La soluzione consiste in un aiuto automatico per gli agenti umani, a supporto dell’elaborazione manuale. Le pile di documenti vengono classificate automaticamente nelle loro parti e ogni pagina rilevante viene elaborata per estrarre le informazioni pertinenti che vengono poi confrontate con i campi annotati manualmente. Questa fase cruciale aiuta a identificare gli errori manuali, con una conseguente diminuzione diretta del tempo necessario per l’intero processo, riducendo la necessità per gli agenti umani di elaborare i documenti una seconda volta.

Il sistema sfrutta modelli di deep learning all’avanguardia per la classificazione e l’estrazione del testo, applicando un approccio misto di caratteristiche visive e testuali. I diversi modelli sono stati addestrati su un set di documenti reali multilingue. La soluzione scelta mostra buone prestazioni sia nella classificazione che nell’estrazione di informazioni, oltre alla capacità di essere facilmente generalizzabile su dati futuri.