Blogpost

Datenqualität im Blickpunkt – Erkennung von Anomalien mit maschinellen Lernverfahren

Daten bilden die Grundlage für die Banksteuerung und Vertriebssteuerung. Alle Steuerungsinstrumente sind nur so gut, wie die Qualität der zu Grunde liegenden Datenbasis. Neue Ansätze aus dem Bereich Big Data und künstliche Intelligenz (BDAI) ermöglichen effiziente Validierungsprozesse zur Gewährleistung der Datenqualität.

63
3 Minuten Lesezeit
Datenqualität im Blickpunkt - Erkennung von Anomalien mit maschinellen Lernverfahren

Das Validieren von großen Datenbeständen auf inhaltliche Konsistenz und die Sicherstellung der Datenqualität spielen für Banken und Finanzinstitute eine wesentliche Rolle. Dies sicher zu stellen ist bei großen Datenbeständen oft nicht einfach. Gerade durch die immense Anzahl an Daten ist ein manuelles Erkennen auffälliger Datensätze allein durch den Menschen nicht mehr möglich. Hier ist der Einsatz moderner IT unumgänglich.

Regelbasierter Ansatz

Ein einfacher Ansatz zum Filtern von möglichen fehlerhaften Daten sind klassische regelbasierte Ansätze. Bei dem regelbasierten Ansatz erstellt der Experte feste Regeln, denen Datensätze genügen müssen. Eine sehr einfache Regel ist zum Beispiel alle Datensätze zu filtern, bei denen Personen älter als 100 Jahre sind (siehe Abbildung). Nach der regelbasierten Verfahren: Es werden nur die möglicherweise fehlerhaften Datensätze identifiziert, die diese vorab definierten statischen Regeln verletzen. Dabei können mehrere inkonsistente Daten nicht erkannt werden. Dies ist in der folgenden Abbildung visualisiert.

Regelbasierter Ansatz

Abbildung 1: Regelbasierter Ansatz

Des Weiteren ist es schwierig für die Vielzahl der Daten Regeln festzulegen. Auch können sich diese im zeitlichen Verlauf ändern, sodass eine Adjustierung nötig ist.

Zusammengefasst weisen klassische regelbasierte Ansätze folgende Schwachstellen auf:

  • Beim regelbasierten Ansatz müssen die Grenzen, welcher Datenpunkt als auffälliger Ausreiser deklariert wird, explizit vorgegeben werden.
  • Datenpunkte, die in sich nicht stimmig sind, aber dennoch fehlerhaft sind, werden nicht erkannt, da die Regeln immer eindimensional auf ein Datenmerkmal angewendet werden.
  • Notwendigkeit der zeitlichen Überwachung und ggf. Adjustierungen der Regeln.

Automatisierung der Überwachung durch maschinelle Lernverfahren

Durch Anwendung von maschinellen Lernverfahren kann der Prozess zur Überwachung der Datenqualität weitestgehend automatisiert werden. Dabei kommen Algorithmen ins Spiel, die auch im Bereich der künstlichen Intelligenz verwendet werden. Die Verfahren stehen den Experten somit als Assistenzsystem zur Verfügung und reduzieren dessen Aufwand. Damit ist dieser Einsatz auch ressourcensparend, sodass der Experte die freiwerdende Zeit für andere Tätigkeiten verwenden kann.

Auf Basis des Algorithmus können auch große Datenbestände effizient ausgewertet werden. Die auffälligen Datensätze können somit ressourcenschonend und gezielt nachbearbeitet werden.

Dabei werden alle Datenpunkte unabhängig von einem Algorithmus bewertet. Auffällige Ausreiser werden anschließend gezielt vom Datenqualitätsmanager überprüft, ob diese tatsächlich fehlerbehaftet sind und korrigiert werden müssen.

Maschinelles Lernverfahren

Abbildung 2: Maschinelles Lernverfahren

Der Ansatz über maschinelle Lernverfahren bietet somit folgende Vorteile:

  • Es müssen vor der Überprüfung keine Regeln vorgegeben werden. Die Regeln zur Detektion anomaler Datenbestände werden durch den Algorithmus selbst ermittelt (Maschinelles Lernen). Optional können auch Regeln explizit durch den Experten vorgegeben werden. Dies kann zum Beispiel auch bei einer Nachselektion erfolgen.
  • Datensätze werden nicht eindimensional pro Datenmerkmal einzeln ausgewertet, sondern es werden alle Merkmale je Datensatz in der Gesamtkomposition (Mehrdimensional) betrachtet.
  • Bei jeder Neuvalidierung des Datenbestandes durch den Algorithmus werden die Regeln automatisch adjustiert. Somit sind keine manuellen Tätigkeiten im Monitoring und der manuellen Regelbildung notwendig.

In der nachfolgenden Abbildung wird die Methodik an einem einfachen Datensatz dargestellt. Dabei ist deutlich erkennbar, dass weitestgehend alle Aussreißer (rot markiert) erkannt werden. Die detektierten Datensätze können nun gezielt durch den Menschen plausibilisiert werden.

Methodik des maschinellen Lernverfahrens

Abbildung 3: Methodik des maschinellen Lernverfahrens

Dieser automatisierte und ressourcensparende Ansatz bildet das ideale Assistenzsystem für Datenqualitätsverantwortliche in Banken und Sparkassen.

msg GillardonBSM

denkt Banking neu und bietet seinen Kunden smarte, innovative und plattformbasierte digitalisierte Lösungen aus einer Hand.

Schreiben Sie einen Kommentar

Sie müssen sich anmelden, um einen Kommentar zu schreiben.