Vous avez certainement entendu parler de Machine ou de Deep Learning ? Mais de quoi parle-t-on exactement ? Et que peuvent apporter ces techniques à la lutte contre la fraude ?
Qu’est-ce que le Machine Learning et le Deep Learning ?
Le Machine Learning est une branche de l’intelligence artificielle, qui se base principalement sur la construction automatique de modèles statistiques en se basant sur un corpus d’apprentissage le plus large possible. Le Machine Learning est présent partout de nos jours, y compris de manière discrète : que ce soit le filtre à spam de votre boîte mail, les moteurs de recommandation sur les sites marchands, les moteurs de recherche. etc.
Le Deep Learning est une sous-branche de cette discipline, qui utilise comme modèles des réseaux de neurones dits «profonds», c’est à dire très complexes, avec de nombreuses couches. Cette approche, qui a été récemment rendue populaire par la disponibilité de la puissance de calcul à faible coût, notamment grâce aux cartes graphiques récentes (GPU : Graphical Processing Units), donne d’excellents résultats, particulièrement sur les images.
Domaine d’application
Netheos utilise le Machine Learning de multiples façons pour traiter les documents d’identité. Nous avons notamment entraîné des réseaux à la classification de documents, à partir d’une masse d’exemples de pièces d’identité. Cela nous permet de classifier automatiquement, avec un haut niveau de confiance, les documents, et surtout d’écarter ceux dont l’apparence s’éloigne trop de ce qui est présent dans les données d’entraînement. L’avantage principal est que le système apprend tout seul les éléments qui doivent être présents sur un document, sans avoir besoin de les spécifier arbitrairement au préalable (on parle «d’invariants»). Par conséquent, le système est facilement adaptable : tout nouveau type de document peut être facilement intégré, il s’agit juste de réaliser un nouvel apprentissage en intégrant les nouveautés.
Netheos utilise également le Deep Learning de façon plus ciblée cette fois, pour les extractions de données et pour vérifier l’authenticité des pièces (comparaison d’éléments de sécurité). Ici encore, il s’agit de rassembler un large corpus de données de référence qui sont utilisées pour entraîner un réseau de neurones, cette fois en se concentrant sur des éléments pré-ciblés par type de document. Cette approche nous permet par exemple d’obtenir un niveau de performance bien supérieur à celles des logiciels d’OCR classiques, en particulier sur des images de faible qualité. En effet, nous observons de plus en plus d’images prises à l’aide de smartphones dans de mauvaises conditions (faible illumination, bruit, déformations de perspective, etc.).
La détection de fraudes
Les approches ci-dessus sont ce que l’on appelle des apprentissages « supervisés », dans le sens où les données utilisées pour l’apprentissage doivent être correctement libellées au préalable (par exemple, les images doivent être correctement triées par type de document). En ce qui concerne la détection de fraude, nous n’avons pas accès à un corpus de données libellées correctement, car, par définition, nous ne savons pas à priori si un dossier est une fraude, et les délais entre le traitement du dossier et la constatation de la fraude peuvent être très longs. Il s’agit de plus (et heureusement) d’événements relativement rares et donc peu représentés dans les données d’apprentissage. Nous utilisons donc pour cela une approche dite non-supervisée. Cette fois, il s’agit de repérer, des points anormaux, qui s’écartent trop de la moyenne : on parle de détection d’anomalie. Ce type de système est notamment utilisé pour les systèmes de paiements électroniques, ce qui permet à votre banque de bloquer les paiements suspicieux, qui s’écartent de vos habitudes d’achat par exemple.
Les algorithmes de Machine Learning sont particulièrement adaptés à la lutte contre la fraude, en offrant comme principal avantage d’être rapidement adaptables à d’autres types de documents ou parcours, par rapport aux approches classiques de logique pré-câblées qui nécessitent de refaire tout un travail à chaque nouvelle situation. De plus, ces approches sans à priori sur la pertinence des données, permettent d’exploiter au maximum les données disponibles, alors qu’un « système expert » se base sur des intuitions, qui viennent du métier certes, mais qui pourraient négliger certains éléments pourtant pertinents.
Il est toutefois important de nuancer cette conclusion en soulignant que c’est bien évidemment la connaissance du métier qui conditionne l’application de tous ces algorithmes.