Avete sicuramente sentito parlare di Machine Learning o Deep Learning? Ma di cosa stiamo parlando esattamente? E quale contributo possono dare queste tecniche alla lotta contro le frodi?
Cosa sono l’apprendimento automatico e l’apprendimento profondo?
L’apprendimento automatico è una branca dell’intelligenza artificiale che si basa principalmente sulla costruzione automatica di modelli statistici utilizzando il più ampio corpus di apprendimento possibile. L’apprendimento automatico è ovunque in questi giorni, anche in modo discreto: dal filtro antispam nella casella di posta elettronica ai motori di raccomandazione sui siti di shopping e sui motori di ricerca. ecc.
Il Deep Learning è un ramo di questa disciplina che utilizza come modelli le cosiddette reti neurali “profonde”, cioè reti neurali molto complesse con molti strati. Questo approccio, recentemente reso popolare dalla disponibilità di potenza di calcolo a basso costo, grazie soprattutto alle recenti schede grafiche (GPU: Graphical Processing Unit), dà risultati eccellenti, soprattutto sulle immagini.
Campo di applicazione
Netheos utilizza il Machine Learning in vari modi per elaborare i documenti d’identità. In particolare, abbiamo addestrato le reti per classificare i documenti, utilizzando una massa di esempi di documenti d’identità. Questo ci permette di classificare automaticamente i documenti, con un alto livello di confidenza, e soprattutto di scartare quelli il cui aspetto è troppo lontano da quello presente nei dati di addestramento. Il vantaggio principale è che il sistema apprende da solo gli elementi che devono essere presenti in un documento, senza doverli specificare arbitrariamente in anticipo (i cosiddetti “invarianti”). Di conseguenza, il sistema è facilmente adattabile: qualsiasi nuovo tipo di documento può essere facilmente integrato, si tratta solo di riapprendere e integrare le nuove funzionalità.
NETHEOS utilizza anche il Deep Learning in modo più mirato questa volta, per l’estrazione dei dati e per verificare l’autenticità delle monete (confronto delle caratteristiche di sicurezza). Anche in questo caso, l’idea è quella di raccogliere un ampio corpus di dati di riferimento che viene utilizzato per addestrare una rete neurale, questa volta incentrata su elementi pre-targettizzati per tipo di documento. Ad esempio, questo approccio ci permette di raggiungere un livello di prestazioni molto più elevato rispetto ai software OCR convenzionali, soprattutto su immagini di bassa qualità. Vediamo sempre più immagini scattate con gli smartphone in cattive condizioni (scarsa illuminazione, rumore, distorsioni prospettiche, ecc.)
Rilevamento delle frodi
Gli approcci sopra descritti sono noti come apprendimento “supervisionato”, nel senso che i dati utilizzati per l’apprendimento devono essere correttamente etichettati in precedenza (ad esempio, le immagini devono essere correttamente ordinate per tipo di documento). Per quanto riguarda la rilevazione delle frodi, non abbiamo accesso a un corpus di dati formulati correttamente perché, per definizione, non sappiamo a priori se un file è una frode e il tempo che intercorre tra l’elaborazione del file e la rilevazione della frode può essere molto lungo. Inoltre, si tratta di eventi (fortunatamente) relativamente rari e quindi poco rappresentati nei dati di addestramento. Pertanto, utilizziamo un approccio non supervisionato. Questa volta, l’obiettivo è identificare i punti anomali che si discostano troppo dalla media: si tratta del cosiddetto rilevamento delle anomalie. Questo tipo di sistema viene utilizzato in particolare per i sistemi di pagamento elettronico, consentendo alla vostra banca di bloccare, ad esempio, i pagamenti sospetti che si discostano dalle vostre abitudini di acquisto.
Gli algoritmi di Machine Learning sono particolarmente adatti alla lotta contro le frodi, in quanto il loro principale vantaggio è che possono essere rapidamente adattati ad altri tipi di documenti o percorsi, rispetto ai tradizionali approcci logici precostituiti che richiedono un lavoro completamente nuovo per ogni nuova situazione. Inoltre, questi approcci, che non hanno idee preconcette sulla rilevanza dei dati, consentono di sfruttare al meglio i dati disponibili, mentre un “sistema esperto” si basa sull’intuizione, che può provenire dall’azienda, ma che potrebbe trascurare alcuni elementi comunque rilevanti.
Tuttavia, è importante qualificare questa conclusione sottolineando che è ovviamente la conoscenza dell’azienda a determinare l’applicazione di tutti questi algoritmi.