Ogni organizzazione produce e riceve milioni di documenti testuali, report, contratti, presentazioni, materiali audio e video, …
E stanno aumentando esponenzialmente le informazioni disponibili online: dalle news ai blog, forum, recensioni e social media, tutti sono pieni di dati potenzialmente utili. Non si può pensare di analizzare e classificare tutto a mano.
I dipendenti delle aziende trascorrono 1,8 ore al giorno a cercare e raccogliere informazioni interne. In media sono 9,3 ore settimanali ossia il 23% delle ore di lavoro settimanali totali. Forse troppo!
Fonte: McKinsey

Fonte: International Data Corporation
In 3rdPlace convertiamo documenti (di ogni formato) in dati.
Applichiamo algoritmi proprietari di Intelligenza Artificiale per sintetizzare contenuti, estrarre e classificare dati provenienti da enormi volumi di documenti (testi, audio, video, …).
- Digitizziamo, estraiamo dati, categorizziamo e sintetizziamo i contenuti
- Generiamo accurati risultati di ricerca arricchiti eventualmente con insight provenienti dagli Alternative Data
Il caso NPL: dalla carta all’analisi dei testi
Usiamo tecnologie di NLP (Natural Language Processing) e di machine / deep learning di nostra proprietà e tecnologie di digitizzazione dei documenti cartacei di PaperLit (tech company specializzata nella Digital Transformation dell’Editoria, parte del nostro stesso gruppo Datrix).
Digitizzazione dei contenuti
- La tecnologia OCR trasforma in testi digitali editabili le scansioni di documenti cartacei o in formato .pdf
- Ogni estrazione di testi è valutata con un punteggio di qualità
Individuazione delle frasi chiave
- Sulla base dell’esempio fornito dal cliente di clausole di trasferibilità dei prestiti, viene generata una lista di frasi chiave interessanti per permettere il training degli algoritmi di machine learning
- Mappatura delle frasi con possibili tipologie di esito (trasferibile, non trasferibile, …)
Analisi dei documenti
- Analisi NLP dell’intera documentazione
- Per ciascun caso, le parti “interessanti” di testo sono individuate per similitudine o prossimità con le frasi chiavi precedentemente evidenziate. Questo genera un “punteggio di interesse” utile per le analisi successive.
Graduatoria dei documenti
- Sulla base dei risultati precedenti, ciascun possibile esito genera un classificatore in grado di descrivere sinteticamente le caratteristiche dei prestiti e il loro status determinato dalle clausole.
- Viene creato automaticamente un documento di sintesi finale.
Metodologia innovativa
Il nostro metodo di lavoro si basa su 4 principali fasi operative:
- Digitizzazione / sintesi
- Classificazione
- Etichettatura
- Arricchimento
Abbiamo affrontato diverse sfide, tra le quali il raggruppamento di documenti simili e riassunto degli stessi in maniera non supervisionata, estrazione delle emozioni contenute in un testo tramite algoritmi proprietari basati su deep learning, definizione delle parole chiave in un testo (le parole presenti nel testo vengono rappresentate tramite i nodi di una rete; si cerca poi di misurare quale siano i nodi più importanti all’interno della rete similmente a quanto viene fatto nel celebre PageRank di Google), classificazione supervisionata di una grande quantità di documenti a partire da un insieme di etichette specifiche (tag) in ambito legale.
Per risolvere questi problemi è necessario riuscire a coniugare conoscenza di campo, collaborando ad esempio con avvocati nel caso di applicazioni legali, e conoscenza tecnologica di algoritmi e programmazione.
Abbiamo esperienze relative alla conversione in dati di contratti sottostanti a Non Performing Loan (NPL), di schede prodotto e KIID finanziari, compravendite immobiliari, sviluppo di indicatori alternativi di investimento e strategie quantamental, valutazione ESG delle aziende, miglioramento dell’affidabilità dei modelli di stima rischio default delle PMI.
Vantaggi principali
- trova quello che stai cercando più velocemente, risparmia tempo per le attività più importanti
- riconosci le informazioni nascoste nei tuoi documenti
- trova connessioni tra soggetti / oggetti presenti nei tuoi contenuti e in dati esterni