KI – Enablement durch die Nutzung unstrukturierter Daten
Mit der zunehmenden Integration von künstlicher Intelligenz (KI) wächst der Bedarf an hochwertigen Daten. Um diese zu extrahieren, werden komplexe Prozesse auf Daten aus unterschiedlichen Quellen angewendet. In diesem Blogbeitrag wird der Datenspeicher- und Transformationsprozess von unstrukturierten Daten und deren Nutzen für KI-Aufgaben erläutert und abschließend ethische Überlegungen zum Einsatz unstrukturierter Daten im Bankwesen thematisiert.(1)
In dieser Collection enthalten:
Collection öffnenInterview mit Dr. Frank Schlottmann über die wichtigsten Einflussfaktoren auf die Bankenbranche
GenAI und Cloud im Banking
Generative KI: So setzen deutsche Unternehmen sie ein - Umfrage 2023
Compliance und Digitalisierung - von Automatisierung bis KI
Künstliche Intelligenz im Zahlungsverkehr
Machine Learning für IRBA-Ratingverfahren
Robotic Process Automation (RPA) - Die Zukunft des Bankings
Robotic Process Automation in Banken
Mit Data Analytics und künstlicher Intelligenz in die Banking Cloud
Datenlandschaft im Überblick
Daten lassen sich in drei Typen – strukturierte, halbstrukturierte und unstrukturierte Daten – kategorisieren:
- Strukturierte Daten sind in einem klaren Tabellenformat organisiert (zum Beispiel csv-Dateien), wobei Zeilen die Datenpunkte und Spalten die Attribute definieren.2
- Halbstrukturierte Daten haben kein festes Tabellenformat, verwenden jedoch Tags und Metadaten, um Hierarchien und Beziehungen abzubilden (zum Beispiel JSON-Dateien).3
- Unstrukturierte Daten haben kein vorgegebenes Format und keine feste Organisation. Sie kommen in verschiedenen Formen vor, wie beispielsweise Videodateien, PDF-Dokumente oder E-Mails. 4
Wenn man mit unstrukturierten Daten arbeiten möchte, führen die Möglichkeiten häufig zu KI-Assistenztechnologien, wie beispielsweise Chatbots. Die Chatbots können aus diesen Daten Wissen automatisiert extrahieren und ermöglichen es, mit den Daten zu interagieren.
Chatbots sind jedoch nicht das einzige Anwendungsgebiet: Auch Business Intelligence (BI) und maschinelles Lernen (ML) können durch unstrukturierte Daten neue Potenziale erschließen. Somit wächst die Bedeutung unstrukturierter Daten rasant. Daher ist es wichtig zu verstehen, wie diese Daten effektiv gespeichert und transformiert werden können.
Datenspeicher- und Transformationsprozesse
Die Struktur der Daten beeinflusst ihre Speicherung. Strukturierte Daten lassen sich in einem Data Warehouse ablegen, das ähnlich wie ein physisches Lager nach einem festen Schema organisiert ist. Die analytische Infrastruktur eines Data Warehouses umfasst Metadaten, Datenmodelle, Datenherkunft und KPIs. Die Transformation strukturierter Daten kann sowohl vor als auch nach dem Laden in das Data Warehouse stattfinden.5
Data Warehouses sind jedoch inflexibel und können keine unterschiedlichen Datentypen innerhalb eines Unternehmens speichern. Der Data Lake löst dieses Problem, indem er eine flexible, schemafreie Speicherlösung anbietet, in der Daten-Dateien kostengünstig in einem Cloud-Objektspeicher abgelegt werden. Dennoch weist die Architektur eines Data Lakes folgende Einschränkungen auf:
- Leistung: Um unstrukturierte Daten für BI-Anwendungen nutzbar zu machen, wird eine Teilmenge der Daten aus dem Data Lake in ein Data Warehouse verschoben. Dieses doppelte Setup erfordert laufende ETL-Prozesse und führt dazu, dass die kopierten Daten doppelt gespeichert werden.
- Qualität: Jeder ETL-Schritt birgt das Risiko von Fehlern oder Bugs, die die Datenqualität beeinträchtigen können.
Das Data Lakehouse löst diese Einschränkungen, indem es unstrukturierte Daten effizient transformiert und speichert. Es kombiniert die kostengünstige Speicherung von Data Lakes mit den Managementfunktionen von Data Warehouses. Plattformen wie Databricks und Snowflake bieten eigene Data-Lakehouse-Architekturen, ELT-Workflows und Datenmanagement an.
In einem Data Lakehouse können sowohl ETL- als auch ELT-Pipelines verwendet werden. Besonders vorteilhaft ist die Unterstützung von ELT-Pipelines, bei denen Daten zunächst geladen werden, um die Rechenleistung der Plattform für skalierbare Transformationen optimal zu nutzen.
Abbildung 1 zeigt die Data-Lakehouse-Architektur bei msg for banking. Unstrukturierte Daten werden in den Data Lake (Objektspeicher) geladen, während Data Marts strukturierte, abteilungsspezifische Ansichten für Reporting- und BI-Zwecke bereitstellen. Data-Science-Teams greifen direkt auf die unstrukturierten Daten im Data Lake zu. Governance-, Qualitätssicherungs- und Metadatenmanagement-Frameworks gewährleisten dabei hohe Leistungs- und Datenqualität.
Workloads, die von unstrukturierten Daten profitieren
Anwendungsfälle in KI und Data Science
Unstrukturierte Daten aus E-Mails, Telefonaten und PDF-Dokumenten liefern wertvolle Einblicke in das Kundenverhalten. Die Analyse dieser Daten hilft dabei, die Stimmung und Interessen von Kunden zu verstehen und ermöglicht personalisierte Produktempfehlungen.
Intelligente Systeme, die Kundeninteraktionen überwachen, können zudem frühe Anzeichen von Unzufriedenheit erkennen, etwa durch die Identifikation von technischen Problemen oder Interesse an Stornierungsrichtlinien in Texten oder Gesprächen. Dies ermöglicht ein rechtzeitiges Eingreifen und verbessert die Kundenbindung.
Regulatorische Berichterstattung
Regulatorische Änderungen werden regelmäßig vom Gesetzgeber sowie von nationalen und internationalen Aufsichtsbehörden veröffentlicht und müssen oft manuell gelesen und verstanden werden. Hier kann KI die Berater unterstützen, indem sie automatisiert regulatorische Änderungen erkennt und bewertet.
Neue Regularien werden an die KI übergeben, die Änderungen oder wichtige Passagen automatisch markiert. Eine solche Lösung kann einem in Beratungsprojekt frühzeitig helfen, indem sie auf projektspezifische Änderungen in Regularien hinweist.
Veranstaltungstipp
KI – Enablement durch Nutzung unstrukturierter Daten | 19.09.2024 | kostenlose Infoveranstaltung | Online
Gleich anmelden:
Ethische Überlegungen in Bezug auf unstrukturierte Daten
Am 01.08.2024 hat die Bundesanstalt für Finanzdienstleistungsaufsicht (BaFin) einen Artikel6 veröffentlicht, der die wichtigsten Herausforderungen für Finanzdienstleister bei der Integration von KI erläutert. Im Folgenden werden diese Themen kurz zusammengefasst und ihre Auswirkungen auf unstrukturierte Daten diskutiert.
Erhöhung der bestehenden Diskriminierungsrisiken
Ein Hauptanliegen der BaFin ist die Verstärkung bestehender Diskriminierungsrisiken, wenn Experten nicht angemessen in automatisierte Entscheidungsprozesse einbezogen werden. Dies gilt insbesondere für unstrukturierte Datenquellen wie Telefonate, vertragliche PDF-Dokumente und E-Mails.
Diese Datentypen enthalten häufig sensible Informationen zu geschützten Merkmalen wie Alter und Geschlecht. Wenn sie nicht sorgfältig verwaltet werden, können diese Daten zu Verzerrungen in Vorhersagemodellen führen, aus denen diskriminierende Ergebnissen resultieren können.
Um Fairness bei der Entwicklung von KI-Lösungen zu gewährleisten, müssen Experten die Daten für das Training sorgfältig auswählen. Die BaFin empfiehlt außerdem, jeden Fall zu bewerten, um über die geeigneten weitergehenden Maßnahmen zu entscheiden.
Herausforderungen bei der Interpretierbarkeit von KI-Modellen
Obwohl erklärbare KI (explainable AI) dazu beiträgt, den Entscheidungsprozess eines Modells zu verstehen, gewährleistet sie doch keine vollständige Transparenz eines KI-Systems. Dies gilt insbesondere für erklärbare generative KI, die sich noch in der Erprobungsphase befindet.
Bei unstrukturierten Daten, die oft persönliche und sensible Informationen enthalten, ist die Herausforderung noch größer. Data Scientists müssen Modelle mit angemessener Interpretierbarkeit sorgfältig auswählen, um sicherzustellen, dass KI-Entscheidungen transparent und nachvollziehbar sind.
Fazit
Unstrukturierte Daten bieten enormes Potenzial für Innovationen in verschiedenen Anwendungsbereichen, insbesondere in der künstlichen Intelligenz. Um dieses Potenzial voll auszuschöpfen, sind jedoch geeignete Datenspeicherarchitekturen und Transformationsprozesse erforderlich.
Gleichzeitig tragen Unternehmen und Data Scientists eine große Verantwortung, diese Daten ethisch korrekt und fair zu nutzen, insbesondere wenn es um persönliche und sensible Informationen geht.
Doch durch die Kombination von technologischem Know-how im Umgang mit Data-Lakehouse-Architekturen und einem verantwortungsvollen Einsatz von KI können Unternehmen neue Möglichkeiten erschließen und nachhaltige, zukunftssichere Lösungen entwickeln.
Wer diese Herausforderung meistert, wird in der Lage sein, den wachsenden Schatz unstrukturierter Daten effektiv zu nutzen und damit Wettbewerbsvorteile zu erzielen.
Quellen
-
1. KI bei Banken und Versicherern: Automatisch fair?, Lydia Albers, Dr. Matthias Fahrenwaldt, Ulrike Kuhn-Stojic, Dr. Martina Schneider,BaFin-Journal, 01.08.2024
-
2. Was sind strukturierte Daten? Strukturierte Daten erklärt – AWS (amazon.com)
-
3. Was sind strukturierte Daten? Strukturierte Daten erklärt – AWS (amazon.com)
-
4. Semi-Structured Data 101, Snowflake
-
5. Evolution to the Data Lakehouse, Databricks Blog
-
6. KI bei Banken und Versicherern: Automatisch fair?, Lydia Albers, Dr. Matthias Fahrenwaldt, Ulrike Kuhn-Stojic, Dr. Martina Schneider,BaFin-Journal, 01.08.2024
Sie müssen sich anmelden, um einen Kommentar zu schreiben.