¿Seguro que ha oído hablar del aprendizaje automático o profundo? Pero, ¿de qué estamos hablando exactamente? ¿Y qué pueden aportar estas técnicas a la lucha contra el fraude?
¿Qué son el aprendizaje automático y el aprendizaje profundo?
El aprendizaje automático es una rama de la inteligencia artificial que se basa principalmente en la construcción automática de modelos estadísticos utilizando el mayor corpus de aprendizaje posible. Hoy en día, el aprendizaje automático está en todas partes, incluso de forma discreta: desde el filtro de spam de la bandeja de entrada del correo electrónico hasta los motores de recomendación de los sitios de compras y los motores de búsqueda. etc.
El aprendizaje profundo es una subrama de esta disciplina, que utiliza como modelos las llamadas redes neuronales «profundas», es decir, redes neuronales muy complejas con muchas capas. Este enfoque, que se ha popularizado recientemente gracias a la disponibilidad de potencia de cálculo de bajo coste, en particular gracias a las recientes tarjetas gráficas (GPU: Graphical Processing Units), ofrece excelentes resultados, sobre todo en imágenes.
Ámbito de aplicación
Netheos utiliza el aprendizaje automático de diversas formas para procesar los documentos de identidad. En concreto, hemos entrenado redes para clasificar documentos, utilizando una masa de ejemplos de documentos de identidad. Esto nos permite clasificar los documentos automáticamente, con un alto nivel de confianza, y sobre todo rechazar aquellos cuya apariencia se aleja demasiado de lo que está presente en los datos de entrenamiento. La principal ventaja es que el sistema aprende por sí mismo los elementos que deben estar presentes en un documento, sin necesidad de especificarlos arbitrariamente de antemano (lo que se conoce como «invariantes»). Como resultado, el sistema es fácilmente adaptable: cualquier nuevo tipo de documento puede integrarse fácilmente, sólo es cuestión de reaprender e integrar las nuevas funciones.
Netheos también utiliza Deep Learning de forma más específica esta vez, para la extracción de datos y para comprobar la autenticidad de las monedas (comparación de elementos de seguridad). También en este caso, la idea es reunir un gran corpus de datos de referencia que se utiliza para entrenar una red neuronal, esta vez centrada en elementos preestablecidos por tipo de documento. Por ejemplo, este enfoque nos permite alcanzar un nivel de rendimiento muy superior al de los programas de OCR convencionales, sobre todo en imágenes de baja calidad. Cada vez vemos más imágenes tomadas con smartphones en malas condiciones (poca iluminación, ruido, distorsiones de perspectiva, etc.).
Detección de fraudes
Los enfoques anteriores son lo que se conoce como aprendizaje «supervisado», en el sentido de que los datos utilizados para el aprendizaje deben estar correctamente etiquetados de antemano (por ejemplo, las imágenes deben estar correctamente clasificadas por tipo de documento). En cuanto a la detección del fraude, no tenemos acceso a un corpus de datos redactados correctamente porque, por definición, no sabemos a priori si un fichero es un fraude, y el tiempo que transcurre entre el tratamiento del fichero y la detección del fraude puede ser muy largo. Además, se trata (afortunadamente) de sucesos relativamente raros, por lo que están poco representados en los datos de entrenamiento. Por lo tanto, utilizamos un enfoque no supervisado. Esta vez, el objetivo es identificar los puntos anómalos que se desvían demasiado de la media: es lo que se conoce como detección de anomalías. Este tipo de sistema se utiliza en particular para los sistemas de pago electrónico, permitiendo a su banco bloquear pagos sospechosos que se desvíen de sus hábitos de compra, por ejemplo.
Los algoritmos de aprendizaje automático son especialmente adecuados para la lucha contra el fraude, ya que su principal ventaja es que pueden adaptarse rápidamente a otros tipos de documentos o vías, en comparación con los enfoques lógicos precableados tradicionales, que exigen realizar un trabajo completamente nuevo para cada nueva situación. Además, estos enfoques, que no tienen ideas preconcebidas sobre la pertinencia de los datos, permiten explotar al máximo los datos disponibles, mientras que un «sistema experto» se basa en la intuición, que puede proceder de la empresa, pero que podría pasar por alto ciertos elementos que, sin embargo, son pertinentes.
Sin embargo, es importante matizar esta conclusión haciendo hincapié en que, obviamente, es el conocimiento de la empresa lo que determina la aplicación de todos estos algoritmos.