Sicher haben Sie schon von Machine oder Deep Learning gehört? Doch worum geht es genau? Und was können diese Techniken zur Betrugsbekämpfung beitragen?
Was ist Machine Learning und Deep Learning?
Machine Learning ist ein Zweig der künstlichen Intelligenz, der sich hauptsächlich auf die automatische Erstellung von statistischen Modellen auf der Grundlage eines möglichst großen Lernkorpus stützt. Machine Learning ist heutzutage überall präsent, auch auf unauffällige Weise: sei es der Spamfilter in Ihrem E-Mail-Postfach, die Empfehlungsmaschinen auf Einkaufsseiten oder die Suchmaschinen. usw.
Deep Learning ist ein Unterzweig dieser Disziplin, der als Modelle sogenannte „tiefe“, d. h. sehr komplexe neuronale Netze mit vielen Schichten verwendet. Dieser Ansatz, der in letzter Zeit durch die Verfügbarkeit von kostengünstiger Rechenleistung, insbesondere durch neuere Grafikkarten (GPUs: Graphical Processing Units), populär geworden ist, liefert vor allem bei Bildern hervorragende Ergebnisse.
Anwendungsbereich
Netheos setzt Machine Learning auf vielfältige Weise ein, um Identitätsdokumente zu verarbeiten. Wir haben u. a. Netzwerke in der Klassifizierung von Dokumenten trainiert, ausgehend von einer Masse an Beispielen von Ausweisdokumenten. Dadurch können wir Dokumente automatisch mit einem hohen Maß an Vertrauen klassifizieren und vor allem solche aussortieren, deren Aussehen zu sehr von dem abweicht, was in den Trainingsdaten vorhanden ist. Der Hauptvorteil ist, dass das System von selbst lernt, welche Elemente auf einem Dokument vorhanden sein müssen, ohne dass sie vorher willkürlich festgelegt werden müssen (man spricht von „Invarianten“). Daher ist das System leicht anpassbar: Jede neue Art von Dokument kann leicht integriert werden, es geht nur darum, einen neuen Lernprozess durchzuführen, indem man die Neuerungen integriert.
Netheos setzt Deep Learning diesmal auch gezielter ein, nämlich für Datenextraktionen und zur Überprüfung der Echtheit von Münzen (Vergleich von Sicherheitsmerkmalen). Auch hier geht es darum, einen großen Korpus an Referenzdaten zusammenzustellen, die zum Trainieren eines neuronalen Netzes verwendet werden, diesmal mit Fokus auf Elemente, die nach Dokumenttyp vorab ausgewählt wurden. Mit diesem Ansatz können wir zum Beispiel ein Leistungsniveau erreichen, das weit über dem herkömmlicher OCR-Software liegt, vor allem bei Bildern mit geringer Qualität. Tatsächlich beobachten wir immer mehr Bilder, die mit Smartphones unter schlechten Bedingungen aufgenommen werden (schwache Beleuchtung, Rauschen, perspektivische Verzerrungen usw.).
Die Aufdeckung von Betrug
Die oben genannten Ansätze sind sogenanntes „überwachtes“ Lernen in dem Sinne, dass die Daten, die zum Lernen verwendet werden, vorher richtig beschriftet werden müssen (z. B. müssen Bilder richtig nach Dokumenttyp sortiert werden). Was die Aufdeckung von Betrug betrifft, so haben wir keinen Zugang zu einem korrekt formulierten Datenkorpus, da wir per Definition nicht a priori wissen, ob es sich bei einem Fall um Betrug handelt, und die Zeiträume zwischen der Bearbeitung des Falls und der Feststellung des Betrugs sehr lang sein können. Außerdem handelt es sich (glücklicherweise) um relativ seltene Ereignisse, die daher in den Lerndaten kaum vertreten sind. Wir verwenden daher für diesen Zweck einen sogenannten unüberwachten Ansatz. Diesmal geht es darum, abnormale Punkte zu finden, die zu stark vom Durchschnitt abweichen. Diese Art von System wird insbesondere bei elektronischen Zahlungssystemen verwendet, sodass Ihre Bank verdächtige Zahlungen blockieren kann, die z. B. von Ihren Einkaufsgewohnheiten abweichen.
Machine-Learning-Algorithmen eignen sich besonders gut für die Betrugsbekämpfung, da sie den Hauptvorteil bieten, dass sie schnell an andere Dokumententypen oder Wege angepasst werden können, im Gegensatz zu herkömmlichen Ansätzen mit vorverdrahteter Logik, bei denen für jede neue Situation eine ganze Arbeit neu gemacht werden muss. Ein „Expertensystem“ basiert auf Intuitionen, die zwar aus dem Beruf kommen, aber bestimmte Elemente übersehen können, die dennoch relevant sind.
Es ist jedoch wichtig, diese Schlussfolgerung zu relativieren, indem man betont, dass es natürlich das Fachwissen ist, das die Anwendung all dieser Algorithmen bedingt.